home *** CD-ROM | disk | FTP | other *** search
/ Sprite 1984 - 1993 / Sprite 1984 - 1993.iso / admin / bugs / bugs.archive.1989 < prev    next >
Encoding:
Text File  |  1990-12-11  |  401.6 KB  |  12,353 lines

  1. 54.
  2. Subject: access times from backup not being reset
  3. Date: Thu, 16 Feb 89 14:44:35 PST
  4. From: Fred Douglis <douglis>
  5.  
  6. I have a script that removes binaries from *.old (/sprite/cmds.*.old,
  7. etc.).  It checks to see if the access time of a file is very old,
  8. because I wouldn't want to remove the old version of an installed
  9. command if the command was moved to .old only recently.  
  10.  
  11. All the files in *.old, and in my home directory, have been accessed
  12. in the past 2-3 days late at night.  It looks like tar isn't resetting
  13. the access times when it dumps something.  Since this is something we
  14. talked about, and my impression was that it was implemented, I thought
  15. I should mention the problem.
  16.  
  17.  
  18. 55.
  19. Subject: bug: portmap in debugger/nfsmount hung
  20. Date: Mon, 20 Feb 89 14:06:23 PST
  21. From: Fred Douglis <douglis>
  22.  
  23. I wasn't going through the remote link to nfs properly, and I checked
  24. on oregano.  portmap was in the debugger.  I did a gcore on portmap
  25. (output in /tmp/portmap.core) in case anyone wants to look at it.  I
  26. then found that restarting portmap wasn't sufficient, I had to kill
  27. and restart the nfsmount daemon I was interested in.  This caused
  28. recovery to take place next time I tried accessing /sprite2.  However,
  29. both before and after the problem occurred, I found that ls was
  30. printing "compat: invalid status 0xffffffff", and the only difference
  31. is that after I restarted nfsmount, it went on without a hitch even
  32. with the error message.
  33.  
  34. 56.
  35. Date: Wed, 22 Feb 89 22:40:33 PST
  36. From: jhh (John H. Hartman)
  37. Subject: 0-length text segments
  38.  
  39. Whenever paprika compiles a file it produces a garbage object that
  40. has a 0-length text segment. We were having this problem all
  41. afternoon and it suddenly occured to me that maybe one machine was
  42. sick. I put it into the debugger in case anyone wants to look at
  43. it.  "Cat"ing one file into another seems to work, so I can't
  44. understand why only compiler output gets trashed.
  45.  
  46. 57.
  47. Date: Sat, 25 Feb 89 12:10:34 PST
  48. From: mendel@sprite.Berkeley.EDU (Mendel Rosenblum)
  49. Subject: murder and thyme dance
  50.  
  51. When I came in this today, murder and thyme appeared to be looping 
  52. sending RPCs between each other.  
  53.  
  54. 58.
  55. Date: Mon, 27 Feb 89 08:58:00 PST
  56. From: ouster (John Ousterhout)
  57. Subject: Bug: mace crash (migration-related?)
  58.  
  59. When I came in this morning and hit the first keystroke, Mace
  60. immediately entered the debugger.  I got two messages in my syslog
  61. window: the first said "Evicting 1 processes", and the second said
  62. "Error 1 in SendProcessState" or something like that.  Then the machine
  63. went into the debugger.
  64.  
  65. 59.
  66. Date: Mon, 27 Feb 89 09:24:57 PST
  67. From: mendel@sprite.Berkeley.EDU (Mendel Rosenblum)
  68. Subject: Bug in brk compatiblity
  69.  
  70. The brk() syscall call emulation doesn't shrink the heap segment when given
  71. an address less than the current end of heap. This causes programs that
  72. use brk() for allocating and freeing memory to grow without bound.
  73.  
  74. 60.
  75. Subject: bug in new gcc?
  76. Date: Thu, 02 Mar 89 12:20:27 PST
  77. From: Fred Douglis <douglis>
  78.  
  79. Trying to compile loadavg, I now get an error 
  80.  
  81.    loadavg.c:68: initializer for floating value is not a floating constant
  82.  
  83. This program used to compile just fine, and they sure look like
  84. floating constants to me!
  85.  
  86. 61.
  87. Date: Sat, 4 Mar 89 16:24:18 PST
  88. From: ouster (John Ousterhout)
  89. Subject: Gdb bug
  90.  
  91. If a program being debugged by Gdb exits, gdb prints the message
  92. "Program exited normally".  But if I then quit from gdb, the process
  93. is left around in DEBUG state.  Shouldn't gdb clean up this loose end?
  94.  
  95.  
  96. 62.
  97. Date: Mon, 6 Mar 89 13:50:30 PST
  98. From: ouster (John Ousterhout)
  99. Subject: Bug (lpd can't handle printer death)
  100.  
  101. It appears that the lpd system is unable to deal with the death of
  102. a printer.  I made the mistake of turning off my printer in the middle
  103. of a long printout, and when I turned the printer on again there was
  104. no way to print anything on it.  I tried aborting and restarting the
  105. printer with lpc, but even that didn't shake things loose.  The only
  106. thing I've been able to find that works is to reboot the machine.  This
  107. seems to be repeatable.  Bob, can you take a look?  Mace is currently
  108. in the hung-printer state, if you have a chance to look at it before I
  109. need a printout and reboot.
  110.  
  111. 63.
  112. Date: Tue, 7 Mar 89 16:49:48 PST
  113. From: jhh (John H. Hartman)
  114. Subject: prefix bug
  115.  
  116. The following prefix input will cause a bus error:
  117.  
  118. prefix -x /foo -M /bar
  119.  
  120. 64.
  121. Date: Tue, 7 Mar 89 17:54:16 PST
  122. From: jhh (John H. Hartman)
  123. Subject: another prefix bug
  124.  
  125. If you do something like
  126.  
  127. prefix -x /foo -M /hosts/cayenne/dev/rsd0a
  128.  
  129. you will put the kernel in the debugger.
  130.  
  131. 65.
  132. Date: Thu, 9 Mar 89 16:43:52 PST
  133. From: mgbaker (Mary Gray Baker)
  134. Subject: xbiff problems?
  135.  
  136. I'm just wondering if anyone else is still having problems with xbiff
  137. giving them the message "XIO: Unknown error."
  138.  
  139. 66.
  140. Date: Mon, 13 Mar 89 09:33:50 PST
  141. From: ouster (John Ousterhout)
  142. Subject: Bug:  mail duplication
  143.  
  144. Has anyone else noticed duplication of mail messages?  For example,
  145. I got two copies of my last message about large LocalFileIOHandles.
  146. I've also noticed this a few times in the recent past, including a
  147. message sent to a different distribution list than Sprite (so it
  148. can't be just a problem with the sprite distribution list).  I'm
  149. not sure whether the problem is 100% reproducible.
  150.  
  151. 67.
  152. Subject: bug: /initsprite is not machine-independent
  153. Date: Wed, 15 Mar 89 10:35:16 PST
  154. From: Fred Douglis <douglis>
  155.  
  156. That is to say, when someone installed a new initsprite on March 8,
  157. sun2's stopped booting because initsprite is a sun-3 binary.
  158.  
  159. 68.
  160. Date: Wed, 15 Mar 89 11:17:20 PST
  161. From: gibson (Garth Gibson)
  162. Subject: ls convention irregularity
  163.  
  164. If a file in the local directory is a symbolic link to another directory,
  165. then ls -sF lists it as a directory (sufix is /) (ls -l shows it as a link).
  166. This differs from both vax and sun unix (which use the suffix @ for a
  167. symbolic link)
  168. If the local symbolic link points to a file then sprite conforms
  169. with unix (its suffix is @).
  170.  
  171. 69.
  172. Subject: bug: tty should be like unix tty
  173. Date: Wed, 15 Mar 89 16:12:18 PST
  174. From: Fred Douglis <douglis>
  175.  
  176. In BSD unix, one can say something like "rcp foo:bar `tty`" to copy to
  177. the terminal invoking the command.  /dev/tty may be used similarly.
  178. In sprite, tty is a program to create a terminal driver with a
  179. pseudo-device, and /dev/tty doesn't exist.
  180.  
  181. (Before anyone does anything about renaming tty, beware that some
  182. scripts may invoke tty.  For example, /hosts/pride/bootcmds runs tty
  183. on /dev/console to make login use a terminal that understands control
  184. characters.)
  185.  
  186. 70.
  187. Date: Thu, 16 Mar 89 11:31:57 PST
  188. From: ouster (John Ousterhout)
  189. Subject: Printing software broken?
  190.  
  191. I'm no longer able to print on Mace's printer.  Lpq prints this:
  192.  
  193. Ready and printing.
  194. Rank   Owner      Job  Files                                 Total Size
  195. active ouster     23   (standard input)                      14655 bytes
  196.  
  197. but nothing happens.  Can you take a look?  I tried rebooting, thinking
  198. the kernel might be wedged, but that didn't solve the problem.  I also
  199. tried power-cycling the printer;  this also didn't help.  Then I noticed
  200. that psdit seems to be looping infinitely.  I tried a few test cases,
  201. including files that I KNOW printed a few days ago, but psdit always
  202. seems to get into an infinite loop.  Printing still works OK for files
  203. that aren't coming from ditroff.
  204.  
  205.  
  206. 71.
  207. Date: Thu, 16 Mar 89 17:48:56 PST
  208. From: mendel@sprite.Berkeley.EDU (Mendel Rosenblum)
  209. Subject: /sprite/spool/mail/mendel corrupted.
  210.  
  211. My incomming mail file (/sprite/spool/mail/mendel) appears to have been 
  212. corrupted.  I got a message from Susan Eggers that was inserted in the
  213. middle of the last message rather than appeaded to the file.
  214.  
  215. 72.
  216. From: rab (Robert A. Bruce)
  217. Subject: make install bug
  218. Date: Thu, 16 Mar 89 18:28:33 PST
  219.  
  220. When I run make install in either /a/adobecmds/* or /sprite/src/admin/*
  221. make tries to copy the previously installed executable to */sun3.md.old,
  222. but can't do it because the sun3.md.old directories don't exist.
  223. So I have to remove the currently installed program before it will
  224. install the new one.
  225.  
  226. 73.
  227. Subject: bug: migrating X application hits negative refcount
  228. Date: Fri, 17 Mar 89 13:03:47 PST
  229. From: Fred Douglis <douglis>
  230.  
  231. for example:
  232.     % xman&
  233.     % sleep a while
  234.     % mig -p <xman_pid>
  235. your host goes into the debugger with a negative write count on the
  236. pdev stream.  If continued, it will continue to enter the debugger
  237. with a complaint about unknown lclpdev.  If the process is kill
  238. -KILLed on the other host, the home node may be continued without a
  239. problem.
  240.  
  241. 74.
  242. Subject: bug: vm pagein/pageout errors and signals == deadlock
  243. Date: Tue, 21 Mar 89 12:32:51 PST
  244. From: Fred Douglis <douglis>
  245.  
  246. Paprika hit a monitor deadlock when oregano crashed and rebooted.  JHH
  247. and I chained through the processes and found that the following
  248. sequence of events took place: ...
  249.  
  250. 75.
  251. Subject: update -l change
  252. Date: Wed, 22 Mar 89 16:51:59 PST
  253. From: Fred Douglis <douglis>
  254.  
  255. I tried to install vm but hit a complaint from update about symbolic
  256. links.  Did someone change kernel.mk recently to make it copy the
  257. files referenced to by symbolic links?  Anyway, I had to remove the
  258. symbolic links before updating the files that had been changed, so it
  259. would install new files rather than complaining about the mismatch.
  260. (I'm sending mail so no one else wastes time tracking down the same
  261. problem.) 
  262.  
  263. furthermore, the complaint by update is misleading: it says that the
  264. source file is a real file when the target is a symbolic link, whereas
  265. in fact the source file is a symbolic link but it appears as a regular
  266. file to update because of the "-l" option.
  267.  
  268. 76.
  269. Date: Wed, 22 Mar 89 21:11:13 PST
  270. From: mendel@sprite.Berkeley.EDU (Mendel Rosenblum)
  271. Subject: bug in reset command
  272.  
  273. When I type reset from a vt100 terminal I get the message
  274.  
  275. Cannot open /usr/lib/tabset/vt100
  276.  
  277. 77.
  278. Date: Thu, 23 Mar 89 10:54:12 PST
  279. From: gibson (Garth Gibson)
  280. Subject: tx
  281.  
  282. I just used the "~h" command in Mail in a tx shell that was "rsh"'d
  283. to pepper.  The To: line contained alot of names.  I heard a set of
  284. beeps and then the window became usless.  I killed it and started
  285. a new one.
  286. garth
  287.  
  288. 78.
  289. Date: Thu, 23 Mar 89 11:13:58 PST
  290. From: gibson@pepper.berkeley.edu (Garth Gibson)
  291. Subject: basil lockup
  292.  
  293. A few minutes ago basil locked up.  It had been running 6 days (that is
  294. all I remember about the kernel that was running).  I had just completed
  295. a mail message in a tx window, rsh'd to pepper when the mouse froze.
  296. The spritemon continued, but L1-v etc did not generate output.  Brent
  297. rsh'd in and found nothing interesting (Xsprite was OK).  Finally I did
  298. L1-k which did get me control.  Then C-c.  I suppose I could have started
  299. a new X at this time, but instead I rebooted (22 Mar 89 18:19:35) kernel.
  300. garth
  301.  
  302.  
  303. 79.
  304. Date: Sun, 26 Mar 89 12:55:06 PST
  305. From: brent (Brent Welch)
  306. Subject: mace crash
  307.  
  308. Mace died inside Mach_MonPutChar when printing a message
  309. about "[1]  + Segmentation violation     Xsprite\n".  The
  310. error was inside the prom, I think, and was probably an
  311. address error of some sort.  It ended up panicing three times
  312. on the way into the debugger, first from Mach_MonPutChar,
  313. then from IdleLoop() because I'll bet that interrupts were off,
  314. and then again inside Mach_MonPutChar as it tried again to
  315. print an error message.
  316.  
  317.  
  318. 80.
  319. Date: Tue, 28 Mar 89 09:17:07 PST
  320. From: mendel@sprite.Berkeley.EDU (Mendel Rosenblum)
  321. Subject: oregano and thyme in debugger
  322.  
  323. When I came in this morning oregano was in the debugger with the message:
  324. Fatal Error: Fs_RpcStartMigration, unknown lclPdev handle <..>.
  325. and thyme was in the debugger with a bus error.
  326.  
  327.  
  328. 81.
  329. Date: Tue, 28 Mar 89 17:29:55 PST
  330. From: brent (Brent Welch)
  331. Subject: mint's ipServer died
  332.  
  333. I think mint's ipServer died today when /sprite was filling.
  334. Mint swaps to /sprite and I'll bet the ipServer got a swap error.
  335. I've restarted the ipServer and currently there is plenty
  336. of disk space.
  337.  
  338. 82.
  339. Date: Wed, 29 Mar 89 09:54:54 PST
  340. From: jhh (John H. Hartman)
  341. X-Mailer: Mail User's Shell (6.4 2/14/89)
  342. Subject: sage and mint dancing
  343.  
  344. When I came in this morning (somehow I managed to be the first one
  345. here), sage and mint were in a recovery dance. Sage would complain
  346. about a stale file handle for /sprite/admin/migInfo, they would
  347. recover, and then sage would complain again. This went on every
  348. few seconds all night from the look of the pile of paper behind
  349. mint's console. Mint was complaining that there was no stream
  350. associated with the file. Has the recovery code been modified
  351. recently?
  352.  
  353. 83.
  354. Subject: Re: mkmf bug  (and more file rot)
  355. Date: Wed, 29 Mar 89 13:18:44 PST
  356. From: Fred Douglis <douglis>
  357.  
  358. yes, that's exactly it.  I was going to change it but couldn't check
  359. out mkmf.map because its RCS file is garbage.  Looks like a line from
  360. the migInfo file at the start of the RCS file!!  This either means
  361. recovery screwed up and let the wrong file get written, or the disk
  362. got trashed at some point.
  363.  
  364.  
  365. 84.
  366. Date: Wed, 29 Mar 89 17:42:26 PST
  367. From: ouster (John Ousterhout)
  368. Message-Id: <8903300142.AA334635@sprite.Berkeley.EDU>
  369. To: sprite
  370. Subject: Bogus messages
  371.  
  372. Why do I keep getting syslog messages like these?
  373.  
  374.     Fs_NotifyWriter, bad handle
  375.     Fs_NotifyWriter, bad handle
  376.     Fs_NotifyWriter, bad handle
  377.     Fs_NotifyWriter, bad handle
  378.  
  379. Is this an over-conservative check that should simply be eliminated?
  380.  
  381.  
  382.  
  383.  
  384. 85.
  385. Subject: bug: oregano fs deadlock
  386. Date: Fri, 31 Mar 89 15:55:01 PST
  387. From: Fred Douglis <douglis>
  388.  
  389. Oregano hung an rpc for me earlier today, then started wedging things
  390. left and right.  I was able to debug it for a while before kgdb core
  391. dumped on me, then I gave up.  The backtrace is in /tmp/oregano.where
  392. in case Brent wants to look at it -- it showed at least a couple of
  393. processes hung in Pfs stuff.  
  394.  
  395.  
  396. 86.
  397. Date: Fri, 31 Mar 89 16:58:44 PST
  398. From: ouster (John Ousterhout)
  399. Subject: Pseudo-device buffering problem?
  400.  
  401. Even with the new version of the tty driver, it appears to me that
  402. too much buffering is going in in the pdev implementation.  For
  403. example, if I rlogin to Sprite using the new rlogind, cat a long
  404. file, and then type ^C, an awful lot more characters come out before
  405. the ^C takes effect.  I tried reducing the size of the pdev buffer
  406. and the tty buffer, but this had no noticeable effect on the # of
  407. characters that come out before signals take effect.
  408.  
  409.  
  410. 87.
  411. Date: Sun, 2 Apr 89 17:35:46 PDT
  412. From: jhh (John H. Hartman)
  413. Subject: rlogin problem
  414.  
  415. If I try to rlogin from unix and I decide not to login I can't kill
  416. the login prompt. '^D' doesn't seem to work.
  417.  
  418.  
  419. 88.
  420. Date: Mon, 3 Apr 89 16:39:09 PDT
  421. From: douglis (Fred Douglis)
  422. Subject: X (tx) bug: window on rebooted host hangs system
  423.  
  424. I made the mistake of running tx on mint with the display on
  425. paprika, then trying to click in the tx window after mint had been rebooted.
  426. >From that point on, I couldn't get the input focus or do anything else; even
  427. xkill said it couldn't grab the mouse, so I couldn't kill the tx window. I
  428. finally had to restart X.  Seems like we need a way for connections to rebooted
  429. hosts to be forcibly destroyed, and for them to time out when appropriate as
  430. well.
  431.  
  432.  
  433. 89.
  434. Subject: bug: "rsh host cmd" hits bus error
  435. Date: Mon, 03 Apr 89 17:52:03 PDT
  436. From: Fred Douglis <douglis>
  437.  
  438. I can do "rsh xxx" but not "rsh xxx cmd" -- it hits a bus error.
  439. Seems the installed rsh is dated november, and there's an uninstalled
  440. one dated Mar 24.  Can the uninstalled one be installed, so we can
  441. debug this problem if it persists?
  442. rsh with a command argument worked not too long ago.
  443.  
  444.  
  445. 90.
  446. Subject: bug: repeating device write
  447. Date: Tue, 04 Apr 89 02:35:59 PDT
  448. From: Fred Douglis <douglis>
  449.  
  450. Several times today, a host has gottten into a funny situation in
  451. which it repeatedly wrote the same line someplace as the result of a
  452. single write operation.  The first time, paprika's syslog printed the
  453. same SU message repeatedly, and Mendel and I looked at it but couldn't
  454. track down the problem, and it cleared itself up after we resumed.
  455. The second time, I believe it was oregano with the problem (also
  456. syslog), and the third time it was an rlogin from thyme to murder
  457. where the same line from a process running on murder kept getting
  458. written over and over.  I threw thyme into the debugger on general
  459. principles, but I'm leaving now, so I don't know if this can be looked
  460. into.  I'm reporting the bug so people know to be on the lookout, and
  461. maybe we can debug it sometime under more reasonable circumstances.
  462.  
  463.  
  464. 91.
  465. Date: Wed, 5 Apr 89 12:13:28 PDT
  466. From: douglis (Fred Douglis)
  467. Subject: bug: device recovery
  468.  
  469. I had been catting /hosts/nutmeg/dev/syslog earlier, then after a
  470. reboot I got Recovery failed <1> (as usual) but this time hit subsequent
  471. errors:
  472. [thyme]/sprite/users/douglis (5)% cat /hosts/nutmeg/dev/syslog
  473. cat: read error: stale remote file handle
  474. [thyme]/sprite/users/douglis (6)% !!
  475. cat /hosts/nutmeg/dev/syslog
  476. /hosts/nutmeg/dev/syslog: invalid argument
  477. [thyme]/sprite/users/douglis (7)% !!
  478. cat /hosts/nutmeg/dev/syslog
  479. /hosts/nutmeg/dev/syslog: invalid argument
  480.  
  481.  
  482.  
  483. 92.
  484. Date: Fri, 7 Apr 89 14:41:12 PDT
  485. From: douglis (Fred Douglis)
  486. Subject: problem with kmsg?
  487.  
  488. %kmsg -v basil
  489. RecvReply: Error reading socket.
  490. Debug
  491. any idea what's up?  I saw this yesterday too.
  492.  
  493.  
  494. 93.
  495. From: tve@ernie.Berkeley.EDU (Thorsten Von  Eicken)
  496. Date: Sat Apr  8 00:27:09 PDT 1989
  497. Subject: sprite dies in Pdev
  498.  
  499. I use the Pdev library. I can open the server side of a pdev, but as soon
  500. as I receive a client's open request, the server dies and takes the machine
  501. with it.
  502.  
  503. I ran my program in the debugger. I get to PdevServiceRequest which calls
  504. my open service routine. The flags passed to the serive routine look
  505. very suspicious:
  506.  
  507. (gdb) step
  508. ServOpen (cd=(ClientData) 0x0, f=(struct Pdev_Stream *) 0x26408, buff=(caddr_t)
  509. 0x25078 "\377\377\377\377", flags=4231170, proc=724277, host=13, user=2984, sel=
  510. (ClientData) 0xdfdfce8) (comm.c line 247)
  511.  
  512. in my service routine, I determine I dislike the flags and return with EACCES.
  513. I get back into PdevServiceRequest (without changing the selectBits) which
  514. then calls ReplyNoData. The thing then dies in that function (I haven't
  515. traced more).
  516.  
  517.  
  518. 94.
  519. Subject: bug: rlogind infinite loop when userLog locked 
  520. Date: Sat, 08 Apr 89 14:46:43 PDT
  521. From: Fred Douglis <douglis>
  522.  
  523. Symptoms: user rlogins to sprite and exits; never returns to remote
  524. host.  On sprite, rlogind is in the READY state much of the time.
  525.  
  526. A backtrace showed rlogind in flock.  Before calling flock, it sets up
  527. an interval timer to send SIGALRM in 10 seconds.  gdb claims that the
  528. signal handler for SIGALRM is never called.
  529.  
  530. I wound up just copying the userLog to another file and overwriting
  531. the original, to break the lock that was causing the problem.  At
  532. least rlogind will work in the meantime.  I'll continue to try to look
  533. into the problem.  If anyone knows of any recent changes to signals,
  534. interval timers, or anything else that might account for this change
  535. in behavior, please let me know.  (Recent == past few months.)
  536.  
  537.  
  538. 95.
  539. Subject: bug: rlogin ~^Z incompatible
  540. Date: Sun, 09 Apr 89 17:56:21 PDT
  541. From: Fred Douglis <douglis>
  542.  
  543. Under unix, my understanding is that ~^Z stops the rlogin without
  544. output continuing from it, while ~^Y stops it but lets output
  545. continue.  Under sprite, ~^Z causes output to continue, which can be
  546. pretty annoying....
  547.  
  548.  
  549. 96.
  550. Date: Tue, 11 Apr 89 20:15:24 PDT
  551. From: mendel@sprite.Berkeley.EDU (Mendel Rosenblum)
  552. Subject: tx bug
  553.  
  554. Tx jumps into the debugger if you type the following command followed by
  555. a carriage return:
  556.  
  557.  ~brent/bin/read -help
  558.  
  559.  
  560. 97.
  561. Subject: copy-on-write crashes
  562. Date: Wed, 12 Apr 89 15:22:16 PDT
  563. From: Fred Douglis <douglis>
  564.  
  565. Paprika has crashed twice in the past two days with the message:
  566.  
  567.     "COW: numCORPages < 0"
  568.  
  569. This seems to happen when I fork children from emacs and then the
  570. parent emacs process exits.  They all share a large address space,
  571. which is mostly untouched by the children (they're sitting around
  572. doing Fs_Dispatches).  The children are exiting at just about
  573. the same time.
  574.  
  575. It's not repeatable, or at least I don't know yet what might make it
  576. repeatable.  Sorry.  If anyone has any interest in pursuing the
  577. problem, or has any insight into what could cause it, please let me
  578. know.  There's a kernel core dump in mendel's tmp directory on /b.
  579.  
  580.  
  581. 98.
  582. Date: Wed, 12 Apr 89 22:20:38 PDT
  583. From: gibson (Garth Gibson)
  584. Subject: vi problem
  585.  
  586. I am logged in from home, editing a file on a sprite disk using vi.
  587. I wanted to do many instances of a simple change - search for last
  588. pattern, repeat last change.  Of course, the screen redraw fell way
  589. behind.  Then everything just stopped.  Control C had no affect, neither
  590. did ESC or control L.  I could ~~^Z back to unix and re-login to basil.
  591. Ps said the vi was in RWAIT.  I looked at the file and it appeared quite
  592. old (I do periodic :w in vi out of paranoid habit).
  593. I will blow the process away and redo what I lost.
  594.  
  595.  
  596. 99.
  597. Date: Wed, 12 Apr 89 22:23:47 PDT
  598. From: gibson (Garth Gibson)
  599. Subject: vi problem revisited
  600.  
  601. This may be an rlogin problem (overflow input buffer?).  When I killed
  602. the process, "Killed" wa displayed and I got a new prompt, but all
  603. keystrokes were still having no effect.  I'll kill the login.
  604. garth
  605.  
  606.  
  607. 100.
  608. Subject: bug: signal deadlock
  609. Date: Thu, 13 Apr 89 11:01:37 PDT
  610. From: Fred Douglis <douglis>
  611.  
  612. I was running gdb under tx when I decided to restart the debuggee.
  613. The tx window went dead (no input, no menu highlighting, whatever).
  614. When I tried running programs from other windows, one by one they
  615. completed but didn't return to the shell.  An l1-p showed they were in
  616. the exiting state, and it showed that there was a Proc_ServerProc and
  617. a csh waiting on the sig monitor lock.  I couldn't find any other
  618. processes waiting on static locks (things I could find in an nm
  619. listing). 
  620.  
  621.  
  622. 101.
  623. subject: interval timer bug (rlogind)
  624. Date: Fri, 14 Apr 89 00:48:20 PDT
  625. From: Fred Douglis <douglis>
  626.  
  627. I noticed that the rlogind hanging bug had returned.  I poked around
  628. in the kernel and discovered that the reason rlogind was ready so
  629. often, rather than waiting forever, was that it was getting signalled
  630. every 20 microseconds. This was due to a bug in procTimer.c that set
  631. an interval of <0,0> to <0,20> -- it would be correct to set 1
  632. microsecond to 20 (the minimum timer resolution), but not 0, which
  633. indicates the timer should only be hit once.
  634.  
  635.  
  636. 102.
  637. Date: Sat, 15 Apr 89 17:40:43 PDT
  638. From: mendel@sprite.Berkeley.EDU (Mendel Rosenblum)
  639. Subject: file system deadlock bug
  640.  
  641. Sprite deadlocks when you try and umount a disk with the prefix command:
  642. prefix -U /local
  643.  
  644. The deadlock is as follows:
  645.  
  646.     Fs_Command calls Fs_PrefixClear which graps the prefixLock monitor
  647.     lock. 
  648.  
  649.     Fs_PrefixClear calls FsPrefixHandleClose which also graps the
  650.     prefixLock monitor lock. 
  651.  
  652.  
  653. 103.
  654. Subject: bug: recovery affects pdev access times
  655. Date: Tue, 18 Apr 89 15:18:29 PDT
  656. From: Fred Douglis <douglis>
  657.  
  658. When oregano rebooted a few minutes ago, apparently every active
  659. rlogin pseudo-device got reset.  Therefore, a finger on sprite lists 5
  660. rlogin connections as having identical idle times (40 minutes or so,
  661. which is when oregano rebooted) and the only rlogins with different
  662. idle times are those that have been active in the past 40 minutes.
  663.  
  664.  
  665. 104.
  666. Subject: recovery bug
  667. Date: Mon, 24 Apr 89 12:56:43 PDT
  668. From: Fred Douglis <douglis>
  669.  
  670. Paprika has been going through the following recovery loop for a
  671. while: it finds out mace is up, it finds some locked handles and
  672. prints GetNextHandle skipping this that and the other thing, it tries
  673. to recover something with mace and gets a timeout, and decides mint is
  674. dead:
  675.  
  676.  
  677. 105.
  678. Subject: bug: null object file 
  679. Date: Mon, 24 Apr 89 15:57:24 PDT
  680. From: Fred Douglis <douglis>
  681.  
  682. I just did a compilation and wound up with a .o file full of nulls.
  683. No idea whether it was done locally or via migration, or what might
  684. have caused this bizarre behavior.  I compiled everything in a
  685. directory and the others are apparently okay (at least ld complained
  686. only about the next-to-last one it looked at).  I'd be interested in
  687. hearing if anyone else notices this sort of behavior.  Also, I looked
  688. very briefly in the sprite log to see if this had been reported before
  689. -- it seems slightly familar -- but I couldn't find anything under
  690. some obvious keywords.
  691.  
  692.  
  693. 106.
  694. Date: Mon, 24 Apr 89 17:47:34 PDT
  695. From: jhh (John H. Hartman)
  696. Subject: mx bug
  697.  
  698.  
  699. I typed "ESC F" (goto search string and delete what's there) and the entire
  700. mx window died with the following error: 
  701.  
  702. thyme<jhh 333> X Error: parameter mismatch
  703.   Request Major code 42 
  704.   Request Minor code
  705.   ResourceID 0xb00079
  706.   Error Serial #905
  707.   Current Serial #905
  708.  
  709.  
  710.  
  711.  
  712. 107.
  713. Subject: sendmail bug: mail stuck in queue
  714. Date: Fri, 28 Apr 89 16:14:07 PDT
  715. From: Fred Douglis <douglis>
  716.  
  717. Mail to *.dec.com is apparently getting stuck in the mail queue.  I
  718. confirmed with Mike that mail to mnelson%decwrl.dec.com@ginger got
  719. through, though mail from sprite is not. No reason why so far -- I
  720. haven't debugged sendmail -- but you might want to redirect your mail
  721. via a unix machine for the time being.
  722.  
  723.  
  724. 108.
  725. Subject: mint's ipserver died / disk full msgs
  726. Date: Sat, 29 Apr 89 11:18:56 PDT
  727. From: Fred Douglis <douglis>
  728.  
  729. at 2:40am murder rebooted and mint printed out many messages about
  730. domain alloc failed.  at the end, the printer wasn't keeping up, so
  731. messages were lost, possibly saying something about the ipserver, so I
  732. couldn't find out why the ipserver disappeared.  The half-hourly
  733. message was printed at 3am, and immediately after that inetd
  734. complained about select errors and exited.  I couldn't check ip.out
  735. because somewhere along the line "/hosts/mint/restartservers" got
  736. changed to overwrite ip.out rather than append to it, and the old
  737. version was lost before I got back downstairs to look at it.
  738.  
  739. I don't know what to do about the ipserver's random skittishness, but
  740. I do have a suggestion about the console message problem: can the
  741. "Domain Alloc Failed" message be counted (and have a message about
  742. which domain it's talking about), so if the same message comes up many
  743. times, it only gets printed once before the domain empties again?
  744.  
  745.  
  746. 109.
  747. Date: Sat, 29 Apr 89 12:11:37 PDT
  748. From: mendel (Mendel Rosenblum)
  749. Subject: bug in fsmake
  750.  
  751. The file system assumes that the disk label is copied to the first block 
  752. of each partition. Fsmake doesn't do this.
  753.  
  754.  
  755. 110.
  756. Subject: fscheck causing extraneous reboots?
  757. Date: Sat, 29 Apr 89 14:22:01 PDT
  758. From: Fred Douglis <douglis>
  759.  
  760. Is fscheck causing mint to reboot unnecessarily?  I went to see why
  761. mint was taking so long to reboot (its RPC system wedged after some
  762. recovery error mendel had rebooting murder; debugging caused a
  763. watchdog reset before anything could be determined).  It had rebooted
  764. after checking the root even though nothing was printed out about
  765. problems with the root.  If the data block bitmap being different on
  766. disk is the only thing, is it necessary to shut down and reboot?  (It
  767. didn't even complain about that, but it seemed like the likeliest
  768. problem.) 
  769.  
  770.  
  771. 111.
  772. Date: Sat, 29 Apr 89 14:58:22 PDT
  773. From: mendel (Mendel Rosenblum)
  774. Message-Id: <8904292158.AA397601@sprite.Berkeley.EDU>
  775. To: sprite
  776. Subject: bug2 is fscheck
  777.  
  778. fscheck writes the disk when it finds duplicate blocks even if the 
  779.  -write flag is not specified.
  780.  
  781.  
  782. 112.
  783. Date: Mon, 1 May 89 12:08:15 PDT
  784. From: jhh (John H. Hartman)
  785. Subject: thyme's ipserver died
  786.  
  787. My ipserver died with a bus error in malloc(). It looks like it
  788. was trying to do a large allocation and the current memory pointer
  789. was bad.  I don't really know because it wasn't linked with the
  790. debugging version of libc.  I had a problem with the ipserver dieing
  791. because its timer callback queue was messed up. My guess is there
  792. is a wild pointer somewhere.
  793.  
  794.  
  795. 113.
  796. Subject: bug: sendmail zeroed memory
  797. Date: Tue, 02 May 89 10:42:35 PDT
  798. From: Fred Douglis <douglis>
  799.  
  800. Sendmail occasionally goes into the debugger with a bus error trying
  801. to dereference a null pointer when rewriting addresses.  Turns out
  802. some data structures that are normally initialized from the .cf file
  803. are all zeroed out.  Unfortunately, I still don't have a recreatable
  804. test case, but I do know that the bug only seems to appear when
  805. sending mail to internet hosts that are probably not in the host table
  806. (i.e., a lengthy name server lookup may be required).  Also, the
  807. sendmail process that hits a bus error is actually the child of a
  808. process that initialized the data structures, so it's conceivable (but
  809. unlikely) that the bug is in VM rather than in sendmail itself.
  810.  
  811.  
  812. 114.
  813. Date: Tue, 2 May 89 16:48:10 PDT
  814. From: douglis (Fred Douglis)
  815. Subject: bug: ipServer memory leak?
  816.  
  817. For the past couple of days, just about any time I've used the internet
  818. from paprika (sending mail, printing files, etc) my system would hang up.
  819. I checked the ipServer and it had a resident set of almost 2 megs with
  820. a total memory image of 5 megs.  paprika had been up since sometime
  821. over the weekend, I think.  other hosts don't show enormous ipServers,
  822. but perhaps this is because I use unix X applications talking over TCP
  823. to my host, and because I've been printing things on paprika from Unix.
  824.  
  825.  
  826. 115.
  827. Subject: bug: locked sendmail files
  828. Date: Wed, 03 May 89 11:58:25 PDT
  829. From: Fred Douglis <douglis>
  830.  
  831. I did a mailq and found a lot of locked files in the queue, dating
  832. back to this morning before mint rebooted.  Anyone know anything about
  833. this? 
  834.  
  835.  
  836. 116.
  837. Subject: bug: "swap down" error
  838. Date: Fri, 05 May 89 09:59:41 PDT
  839. From: Fred Douglis <douglis>
  840.  
  841. I found that processes migrating to basil were getting stuck -- not
  842. running, not killable, nuttin'.  I saw Garth wasn't around, so I threw
  843. basil into the debugger.  (Sorry, Garth -- when I continued basil, it
  844. panicked with a complaint that "current process is nil" -- maybe kgdb
  845. didn't continue it properly after I changed processes?)
  846.  
  847. The migrated process was stuck in an unkillable state because
  848. "swapDown" was set and it was waiting for someone to notify it that
  849. the swap area isn't down.  Of course, we all know /c is just fine
  850. right now, so basil somehow got fairly confused.  
  851.  
  852.  
  853. 117.
  854. Date: Fri, 5 May 89 23:27:25 PDT
  855. From: jhh (John H. Hartman)
  856. Subject: bugs in malloc()
  857.  
  858. I ran a user level program that tries to malloc a giant piece of
  859. memory.  Two problems occurred: 1) The call in MemChunkAlloc to
  860. sbrk failed (correctly) but MemChunkAlloc called panic. Shouldn't
  861. malloc return 0 rather than terminate the process? 2) Panic calls
  862. fprintf, which eventually calls StdioFileWriteProc. Since nothing
  863. has been written to stderr yet, StdioFileWriteProc calls (you
  864. guessed it) malloc to allocate a buffer.  This is very bad.  Stderr
  865. should not be buffered. If, however, we get rid of the call to
  866. panic both of these problems go away. Any comments?
  867.  
  868.  
  869. 118.
  870. Subject: bug: fs consistency hanging
  871. Date: Mon, 08 May 89 12:25:30 PDT
  872. From: Fred Douglis <douglis>
  873.  
  874. Andreas reported that he couldn't get a login working, and it turned
  875. out that opens and stats of "~stolcke/.cshrc" were hanging.  I
  876. debugged mint and found that everyone was waiting on a
  877. CONSIST_IN_PROGRESS that didn't seem to exist (I didn't find anyone
  878. actually in the middle of consistency).  When I went to reboot mint, I
  879. saw something in its syslog about consistency with fenugreek for this
  880. file timing out, so it looks like somehow the flag didn't get reset
  881. properly.  Furthermore, fenugreek was getting lots of timeouts
  882. followed by "fenugreek is up", which implies that maybe fenugreek's
  883. channels for communication with mint were hung up, perhaps by all the
  884. pdev-related operations Andreas was doing.  (Mary is seeing many
  885. pdev-related syslog messages during recovery).
  886.  
  887.  
  888. 119.
  889. Date: Sun, 7 May 89 11:58:18 PDT
  890. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  891. Subject: bug: pfs callback deadlocked oregano
  892.  
  893. Oregano locked up sometime late yesterday or early today, with just
  894. about every process blocking on the prefixLock.  Thanks to John's
  895. lock information, I was able to figure out which process was actually
  896. holding the prefix lock (a good case for leaving this information 
  897. available *all the time*).
  898.  
  899. Someone called Fs_PrefixDump, which locked the prefix monitor and called
  900. FsDomainInfo.  This called FsPfsGetAttrPath, which called FsPseudoStreamLookup,
  901. which called RequestResponse.
  902.  
  903. In the meantime, there were various other things, like reopens, going on.
  904. I couldn't figure out how to save my gdb window once it was going, so 
  905. I can't provide a full backtrace, but the gist was that someone was 
  906. trying to reopen a file and was blocked because the handle was locked;
  907. someone else was trying to delete something and was blocked on the handle,
  908. etc.  I didn't pay much attention to this once I found the prefix table
  909. lock held down during the callback.
  910.  
  911. One more bug, while I'm at it: saying "boot" without any arguments
  912. just hangs on oregano, and booting from ginger results in it shutting
  913. down and rebooting unsuccessfully from its local disk if there's an error
  914. on the root.
  915.  
  916. 120.
  917. Subject: bug: missed notification on packet output?
  918. Date: Tue, 09 May 89 10:07:22 PDT
  919. From: Fred Douglis <douglis>
  920.  
  921. Wei reported that a migrated process got wedged, and I found that it
  922. was stuck doing a remote write to its home machine -- the thing is, it
  923. was stuck in the low-level network code, waiting to be told a packet
  924. had been output, rather than in the RPC code as I had expected.  I
  925. called Brent and he's looking at it, but I figured I'd record the bug
  926. to make sure it's on the bug list.
  927.  
  928. 121.
  929. Subject: bug: lprm doesn't stop job in process
  930. Date: Tue, 09 May 89 11:16:39 PDT
  931. From: Fred Douglis <douglis>
  932.  
  933. I accidentally sent a 35-page job to the printer when I meant to
  934. select only a page from it.  When I did an lprm a moment later, it
  935. claimed to remove the job, but it came out nevertheless.  I believe
  936. that in Unix I have been able to stop jobs even after they have
  937. started printing, and certainly before they start printing.
  938.  
  939. 122.
  940. Date: Wed, 10 May 89 23:21:37 PDT
  941. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  942. Subject: bug in DevNet_FsOpen
  943.  
  944.  
  945. Perhaps Mendel's new dev implementation fixes this, but I thought
  946. I'd better report it anyway. DevNet_FsOpen calls malloc with a
  947. semaphore held (protoMutex).  If vmMonitorLock is held you go into
  948. the idle loop with the interrupts off. I guess this doesn't usually
  949. happen on a sun, but it just did on the spur.
  950.  
  951.  
  952.  
  953. 123
  954. Date: Fri, 12 May 89 08:09:39 PDT
  955. From: douglis (Fred Douglis)
  956. Subject: migInfo file locked again (bug)
  957.  
  958. something must have hung, been suspended, or been thrown into the
  959. debugger with the lock to the migInfo file held, because Wei sent me
  960. mail last night commenting that after relinking with the fixed 
  961. node selection code, the time to select an idle host went to 10 seconds!
  962. I looked around for obvious candidates, didn't find any, and instead
  963. copied the file back to itself and restarted as many loadavg daemons
  964. as I could.
  965.  
  966. Another case for using a server-based model instead of a single shared
  967. file, as far as I'm concerned.
  968.  
  969.  
  970. 124
  971. Date: Fri, 12 May 89 08:12:30 PDT
  972. From: douglis (Fred Douglis)
  973. Subject: bug: can't rlogin to mustard
  974.  
  975. When restarting all the daemons, I found I couldn't rlogin to mustard.
  976. migrating to it works fine and lets me list the running processes, which
  977. include ipServer and inetd.  Any ideas?  It will be listed as "down" until
  978. someone kills the old loadavg and starts a new "loadavg -dv" process.
  979.  
  980.  
  981. 125
  982. Subject: bug: murder power-on-reset
  983. Date: Fri, 12 May 89 16:59:38 PDT
  984. From: Fred Douglis <douglis>
  985.  
  986. Murder bit the big one earlier today when its ethernet cable popped
  987. out and then was reconnected.  Is this a software fault or a problem
  988. with the hardware??
  989.  
  990.  
  991. 126
  992. Subject: bug: repeated obituaries
  993. Date: Mon, 15 May 89 21:26:49 PDT
  994. From: Fred Douglis <douglis>
  995.  
  996. It's a little distracting to see "mace considered dead" once every
  997. minute or two.  I can't imagine that the system thinks mace has gone
  998. from being alive to being dead, so there must be a bug that's causing
  999. it to say mace is considered dead when it's already dead.  This may be
  1000. tied to the fact that someone is probably trying to write over a
  1001. pseudo-device to mace with some probability, once per minute.
  1002.  
  1003.  
  1004. 127.
  1005. Date: Mon, 15 May 89 21:52:01 PDT
  1006. From: pmchen (Peter M. Chen)
  1007. Subject: new user report
  1008.  
  1009. Bugs:
  1010.     Before I got X running, I was using the console window:
  1011.     1) more doesn't work
  1012.         TIOCLGET: invalid argument
  1013.     2) vi doesn't work
  1014.         I vi'ed a file, then edited, then ctrl. Z, then foregrounded (%)
  1015.         When I foregrounded, the most recent change was gone.  Also
  1016.         when I foregrounded, the screen paused until I hit a key.
  1017.     3) set filec doesn't work (it does under tx and X)
  1018.  
  1019.     Once I got X running, life was much better.  I still had some problems,
  1020.         though:
  1021.         1) mouse movement is skewed (when I move the mouse vertically up,
  1022.         it goes at about a 10 degree angle to the right.
  1023.         2) caps lock doesn't work (nor F1)
  1024.     3) df prints out wrong information for nfs mounted file systems
  1025.     4) "ls -F" lists symbolic links to directories as directories instead
  1026.         of symbolic links.  E.g. ls /spur2/pmchen lists 262@ from unix
  1027.         but 262/ from sprite.  This isn't necessarily a problem, but
  1028.         it is different from unix.
  1029.  
  1030. Good things about sprite and tx:
  1031.     1) tx looks nicer, and the fonts can be smaller with seemingly better
  1032.     resolution
  1033.     2) vi printing response time seems faster under tx than xterm
  1034.     3) my machine beeps (ctrl. G), which it never was able to do before (even
  1035.     under raw console)
  1036.     4) tx is better at cutting and pasting than xterm
  1037.     5) once you get X running, most things seem to work right away
  1038.  
  1039. tx and uwm wish list:
  1040.     1) xterm lights up the window that you're working in (in the title bar
  1041.         section.  Can tx?
  1042.     2) I'd like to save screen space and get rid of the command window
  1043.     and the "Control Search Selection" window.  Why not use (as xterm)
  1044.     ctrl. mouse to get the Control, Search, and Selection?
  1045.     3) xterm has a menu item to reset the terminal, which tx doesn't.  It
  1046.     comes in real handy sometimes.
  1047.     4) I'd like to be able to dynamically change the title of a tx window
  1048.     5) I'd like to have deiconify warp
  1049.  
  1050. Questions:
  1051.     1) can I get named pipes (like the unix command mknod)?
  1052.     2) how do you use xbiff?  I see it in ~douglis/cmds.sun3, but I can't
  1053.     make it work
  1054.     3) is there a proofer (such as xproof)?
  1055.     4) is there an easy way to exit out of X?
  1056.     5) are there common places to look for utilities and help without bugging
  1057.     you guys?
  1058.  
  1059.  
  1060. 128.
  1061. Date: Tue, 16 May 89 14:09:30 PDT
  1062. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1063. Subject: prefix bug
  1064.  
  1065.  
  1066. This may be a feature, but I consider it a bug. Last night oregano
  1067. would boot as root and export /a, /b, /c. In oregano's /local (which
  1068. was serving as / ) there weren't any remote links for /a, /b, and
  1069. /c. Oregano did not complain about this and on oregano I was able
  1070. to cd to these directories.  Other machines couldn't find them and
  1071. would not boot. It took me a while to figure this one out. I don't
  1072. think prefix should allow you to export a prefix that doesn't have
  1073. a remote link. If you just want to change the name of a prefix on
  1074. a particular machine you can do the same thing with a symbolic
  1075. link, rather than the prefix command.
  1076.  
  1077.  
  1078. 129.
  1079. Subject: fs bug: bogus type
  1080. Date: Wed, 17 May 89 14:42:04 PDT
  1081. From: Fred Douglis <douglis>
  1082.  
  1083. paprika crashed a short time ago with an address error resulting from
  1084. Fs_GetAttributes calling a routine based on an invalid type (32).  The
  1085. core file is in /c/tmp/mendel/vmcore if that would be of use to Brent
  1086. (please delete if not).  Sounds like some checks for bogus types would
  1087. be useful.
  1088.  
  1089.  
  1090.  
  1091.  
  1092.  
  1093.  
  1094. 130.
  1095.  
  1096. Date: Sun, 21 May 89 22:01:40 PDT
  1097. From: douglis (Fred Douglis)
  1098. Subject: bug: nawk & gawk incompatible
  1099.  
  1100. gawk was installed, and nawk removed, but a script that works with nawk
  1101. doesn't work with gawk.  I believe it's because nawk allows variables to
  1102. be defined on the command line.  Check out ~douglis/bin/KernelVersions
  1103. for an example of a command that produces no output using gawk.
  1104.  
  1105. 131.
  1106. Subject: bug (sort of): gcc & float
  1107. Date: Mon, 22 May 89 00:06:19 PDT
  1108. From: Fred Douglis <douglis>
  1109.  
  1110. it seems that a number of programs that compile just fine under sunos
  1111. using the std. cc produce incorrect code under gcc, due to the use of
  1112. "float" v. "double".  does anyone know whether other versions of the C
  1113. library (pre-ANSI) use floats instead of doubles, or something?
  1114. Andreas reported that "pic" produced bad code because of this, and now
  1115. I found that ggraph produced a garbage graph under sprite, and has
  1116. lots of use of floats.  I also am starting to think my trouble with
  1117. TeX is due to gcc v. whatever everyone else uses.
  1118.  
  1119.  
  1120. 132.
  1121. Subject: bug: non-ready process
  1122. Date: Wed, 24 May 89 11:02:14 PDT
  1123. From: Fred Douglis <douglis>
  1124.  
  1125. paprika just crashed with a "non-ready process in ready queue",
  1126. followed by a deadlock syncing the disks, followed by a deadlock on
  1127. sched_Mutex, followed by aborting and requiring a watchdog reset to
  1128. stop being comatose.
  1129.  
  1130.  
  1131. 133.
  1132. Subject: bug: tftpboot borken again
  1133. Date: Thu, 25 May 89 11:27:16 PDT
  1134. From: Fred Douglis <douglis>
  1135.  
  1136. a kernel that runs fine from unix gets "exception 10" immediately
  1137. after booting from mint.
  1138.  
  1139.  
  1140. 134.
  1141. Date: Sat, 3 Jun 89 16:09:14 PDT
  1142. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1143. Subject: bug in man macros
  1144.  
  1145. The .VS macro starts sidebars, but the .VE doesn't seem to stop them.
  1146. They continue to the end of the document.
  1147.  
  1148.  
  1149. 135.
  1150. Date: Mon, 5 Jun 89 17:48:11 PDT
  1151. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1152. Subject: migration bug
  1153.  
  1154. Just for fun I decided to migrate a load of the spur kernel away
  1155. from my host while it was running. I typed "mig -p <processid>"
  1156. and it was migrated to mustard. When the load completed thyme
  1157. thought the size of the resulting kernel was about 1 Mb, while the
  1158. rest of the system including the fileserver thought it was its
  1159. normal 4 Mb. I think the size on thyme is the size of the file at
  1160. the time the migration occurred.
  1161.  
  1162.  
  1163. 136.
  1164. Date: Fri, 9 Jun 89 15:01:37 PDT
  1165. From: douglis (Fred Douglis)
  1166. Subject: bug: exclusive access to console when using debugger
  1167.  
  1168. I was catting /hosts/sloth/dev/syslog when I tried to attach to sloth
  1169. using kgdb.  I had to interrupt the cat process and reattach in
  1170. order to get through the attachment procedure.  Before that, it just
  1171. hung indefinitely.
  1172.  
  1173.  
  1174. 137.
  1175. Date: Fri, 9 Jun 89 15:12:51 PDT
  1176. From: brent (Brent Welch)
  1177. Subject: bug main_ variables
  1178.  
  1179. We should clean up how the various main_ variables
  1180. are declared and set.  Now that we have Main_InitVars
  1181. there is no reason to have:
  1182. char *main_HomeDir = "/";
  1183.  
  1184. /*
  1185.  * Flags to modify main's behavior.   Can be changed without recompiling
  1186.  * by using adb to modify the binary.
  1187.  */
  1188. Boolean main_Debug     = FALSE; /* If TRUE then enter the debugger */
  1189. Boolean main_DoProf     = FALSE; /* If TRUE then start profiling */
  1190. Boolean main_DoDumpInit    = TRUE; /* If TRUE then initialize dump routines */
  1191. int main_NumRpcServers    = 2;     /* # of rpc servers to create */
  1192. char *main_AltInit    = NULL;  /* If non-null then contains name of
  1193.                   * alternate init program to use. */
  1194. Boolean main_AllowNMI   = FALSE; /* If TRUE, allow non-maskable interrupts.*/
  1195.  
  1196. like I do in my mainHook.c file
  1197.  
  1198.  
  1199. 138.
  1200. Subject: bug: when the disk fills ...
  1201. Date: Tue, 13 Jun 89 11:44:11 PDT
  1202. From: Fred Douglis <douglis>
  1203.  
  1204. I know this has been brought up in the past, and I thought measures
  1205. had been taken.  If so, they weren't sufficient: when I filled up /a,
  1206. my host became entirely unusable because it was printing "domain full"
  1207. messages as quickly as it could (on the display because the syslog
  1208. window couldn't keep up), and I couldn't get in to remove anything.
  1209.  
  1210. How about associating a bit with each file that says whether it has
  1211. been unsuccessfully flushed to disk?  Each file could be printed out
  1212. only once that way.  The other thing is, when the disk fills up, the
  1213. client could try waiting a while before flushing again.  If the client
  1214. can't do anything else in the meantime because its cache is full of
  1215. dirty data, then it could wait rather than beating on the server while
  1216. someone on another host tries deleting something.  
  1217.  
  1218. What ever happened to the idea of checking the available space before
  1219. filling up the cache?  Seems like there must be a better way to handle
  1220. this, and we should deal with this before we put more people on the
  1221. system.
  1222.  
  1223.  
  1224. 139.
  1225. Date: Fri, 16 Jun 89 13:19:22 PDT
  1226. From: mendel (Mendel Rosenblum)
  1227. Subject: bugs in fscheck and boot sequence
  1228.  
  1229. During the boot sequence, if the file .fscheck.out does not exists 
  1230. fscheck appears to write its output to root directory of the file system
  1231. being checked.  The only recover from this is remaking the file system.
  1232. Fscheck doesn't appear to be able to fix a disk whose root directory
  1233. was trashed. 
  1234.  
  1235. Also, the mkdir program should probably be added to /boot/cmds.
  1236.  
  1237.  
  1238. 140.
  1239. Date: Fri, 16 Jun 89 18:18:23 PDT
  1240. From: douglis (Fred Douglis)
  1241. Subject: bug oregano fscheck loop
  1242.  
  1243. yet again, oregano would not reboot.  apparently someone started it
  1244. rebooting around 5:15 this afternoon without notifying anyone else and
  1245. without sticking around to look at it; John O. and I wandered up there
  1246. and saw it was rebooting, and left it alone untiL I decided it wasn'
  1247. getting anywhere.  When I rebooted single-user, there were a few problems
  1248. (like the $path wasn't set up to execute anything!) but i was able
  1249. to attach /c and see that lost+found was full again.  I tried
  1250. creating and deleting lots of files, getting the size of the directory
  1251. up o 16K and that still wasn't enough.  i finally gave up and rebooted
  1252. with a fastboot, so * /c still has not been checked *. this was after
  1253. 3 or 4 attempts to get fscheck to complete without filling up lost+found.
  1254.  
  1255.  
  1256. 141.
  1257. Date: Sat, 17 Jun 89 13:27:08 PDT
  1258. From: mendel (Mendel Rosenblum)
  1259. Subject: bug is fscheck
  1260.  
  1261. The -hostID option of fscheck should allow the user to specify the hostID to
  1262. set in the disk header.  I made tonkawa's disk on murder so the hostID was
  1263. set to 17. When I booted tonkawa it would initialized its hostID from the
  1264. disk so I couldn't change it.  I had to L1-a tonkawa during the boot,
  1265. set rpc_SpriteID to 15 from the PROM, continue the boot, and run fscheck.
  1266.  
  1267.  
  1268. 142.
  1269. Date: Mon, 19 Jun 89 21:39:06 PDT
  1270. From: brent (Brent Welch)
  1271. Subject: SendTimerSigFunc bug?
  1272.  
  1273. Mendel had complained that the timer queue was filling up
  1274. in the new kernels.  I did some debugging and noticed
  1275. many entries due to SendTimerSigFunc, which is used for
  1276. process interval timers.  There is a level of indirection
  1277. that must be followed to see this.  SendTimerSigFunc is
  1278. called from CallFuncFromTimer, which is the function in
  1279. the timer queue.  Anyway, it looks like some process is
  1280. either way overusing the interval timer stuff, or some
  1281. recent change has broken it and the timer reschedules
  1282. itself incorrectly.
  1283.  
  1284.  
  1285. 143.
  1286. Date: Tue, 20 Jun 89 22:49:11 PDT
  1287. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1288. Subject: file permissions bug
  1289.  
  1290. If I try to chmod /sprite/src/kernel I get :
  1291.  
  1292. thyme-3# chmod 775 /sprite/src/kernel
  1293. chmod: /sprite/src/kernel: too many levels of symbolic links
  1294.  
  1295. Also, the file LOCK.make existed in /sprite/src/kernel and was owned by me :
  1296.  
  1297. -rw-rw-r--  1 jhh             0 Jun  2 14:28 LOCK.make
  1298.  
  1299. but I could not delete it :
  1300.  
  1301. rm LOCK.make
  1302. rm: LOCK.make: permission denied
  1303.  
  1304.  
  1305. 144.
  1306. Date: Wed, 21 Jun 89 17:40:18 PDT
  1307. From: mendel (Mendel Rosenblum)
  1308. Message-Id: <8906220040.AA69899@sprite.Berkeley.EDU>
  1309. To: sprite
  1310. Subject: prefix bug
  1311.  
  1312. I had /sprite/src/kernel attached to murder under both /sprite/src/kernel
  1313. and /d.  If you type 
  1314.     cd /sprite/src/kernel/dev
  1315.     pwd
  1316.  
  1317. look get /d/dev as output. This breaks mkmf.
  1318.  
  1319.  
  1320. 145.
  1321. Date: Wed, 21 Jun 89 18:12:19 PDT
  1322. From: douglis (Mary Gray Baker)
  1323. Message-Id: <8906220112.AA733452@sprite.Berkeley.EDU>
  1324. To: sprite
  1325. Subject: bug in Vm_FindCode
  1326.  
  1327. I got into a mode where any process trying to execute "sh" would hang
  1328. in an unkillable state.  This is because FindCode thinks someone else is already
  1329.  trying
  1330. to allocate the segment, and it waits on a condition that never gets notified.
  1331. Seems like this isn't an awfully high priority problem, but something worth
  1332. thinking about...
  1333.  
  1334.  
  1335. 146.
  1336. Subject: bug with syslog
  1337. Date: Thu, 22 Jun 89 12:32:44 PDT
  1338. From: Fred Douglis <douglis>
  1339.  
  1340. maybe related to the new changes in dev?  the newer kernels get
  1341. screwed up and only direct some output to the process that's catting
  1342. /dev/syslog, with the rest going directly to the display.  
  1343.  
  1344.  
  1345.  
  1346.  
  1347.  
  1348. 147.
  1349.  
  1350. Date: Thu, 22 Jun 89 17:13:35 PDT
  1351. From: brent (Brent Welch)
  1352. Subject: device reopen bug
  1353.  
  1354. I have tested device reopening and it is ready to go,
  1355. except that there is an obscure bug which I don't want
  1356. to fix right now.  The bug would only show up if you
  1357. have a write-only stream to a remote syslog device,
  1358. and the remote host reboots.  Upon reopen the syslog
  1359. device would erroneously be told the client has a
  1360. read-write, not write-only, stream.  This would confuse the
  1361. syslog device because it is a single-reader device.
  1362. (To fix this you'd have to close the write-only stream
  1363. and reboot the server.)
  1364.  
  1365.  
  1366. 148.
  1367. Date: Fri, 23 Jun 89 14:14:13 PDT
  1368. From: stolcke (Andreas Stolcke)
  1369. Subject: spritemon
  1370.  
  1371. When I tried to run spritemon recently on mint it gave me
  1372. Floating-point exception. I was rlogged in from a non-sprite sun4,
  1373. but I don't see how that could have something to do with it.
  1374.  
  1375.  
  1376. 149.
  1377. Date: Sat, 24 Jun 89 15:54:44 PDT
  1378. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1379. Subject: tx bug
  1380.  
  1381. It looks like tx windows are missing some refresh events. If I
  1382. change the window under a dialog box (like the one that says I
  1383. can't write the file), and then pick "continue", the underlying
  1384. window is not refreshed.
  1385.  
  1386.  
  1387. 150.
  1388. Date: Sat, 24 Jun 89 18:16:47 PDT
  1389. From: mendel (Mendel Rosenblum)
  1390. Message-Id: <8906250116.AA397619@sprite.Berkeley.EDU>
  1391. To: sprite
  1392. Subject: recovery bug
  1393.  
  1394. Every 30 seconds murder prints a message
  1395.  
  1396. 6/24/89 17:17:31 basil (5) completed recovery
  1397.  
  1398. in its syslog.
  1399. Murder is running:
  1400. SPRITE VERSION 1.0 (Brent sun3) (23 Jun 89 13:03:36)
  1401. and basil is running
  1402. SPRITE VERSION 1.0 (Brent sun3) (14 Jun 89 17:42:58
  1403.  
  1404.  
  1405. 151.
  1406. Date: Sun, 25 Jun 89 15:07:10 PDT
  1407. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1408. Subject: spur vm bug
  1409.  
  1410. On line 1476 in Vm_SegmentDup there is an unlock of the page pointed
  1411. to by the destination PTE ptr.  Unfortunately this page was not locked
  1412. in the first place. Vm_SegmentDup was called by InitUserProc. I looked
  1413. all through the vm code and was unable to find the place where the
  1414. destination page is locked. Obviously this can't be the case, otherwise
  1415. the code would never work.  Could someone who understands the code 
  1416. better take a look at it and tell me where the page is locked?
  1417.  
  1418.  
  1419. 152.
  1420. Date: Sun, 25 Jun 89 18:25:28 PDT
  1421. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1422. Subject: netroute bug
  1423.  
  1424. I can't install a route to tonkawa because rarp fails. I don't know
  1425. why rosemary refuses to answer rarp requests, but it would be nice
  1426. if I could specify the internet address of the host to netroute,
  1427. or have netroute look in spritehosts. Also, what's the deal on the 
  1428. rarp daemon? Are our fileservers supposed to be running it, or do we
  1429. depend on unix. Raid had a problem booting because no one responded to
  1430. rarp. When I started the daemon on tonkawa the problem went away.
  1431.  
  1432.  
  1433.  
  1434. 153.
  1435. Date: Thu, 29 Jun 89 17:19:14 PDT
  1436. From: ouster (John Ousterhout)
  1437. Subject: Pmake bug?
  1438.  
  1439. If I type "pmake cleanall" in /a/X/src/cmds/Xsprite, pmake hangs after
  1440. printing the following information:
  1441.  
  1442. mace: pmake cleanall
  1443. --- cleansun2 ---
  1444. pmake -l  'CC=cc' 'INSTALLDIR=/X/cmds' 'TM=sun3' TM=sun2 clean
  1445. --- tidy ---
  1446. %%% ddx %%%
  1447. --- clean ---
  1448. rm -f sun2.md/spriteBW2.o sun2.md/spriteCG2M.o sun2.md/spriteCursor.o sun2.md/sp
  1449. riteGC.o sun2.md/spriteInit.o sun2.md/spriteIo.o sun2.md/spriteKbd.o sun2.md/spr
  1450. iteMouse.o sun2.md/spriteBW2.po sun2.md/spriteCG2M.po sun2.md/spriteCursor.po su
  1451. n2.md/spriteGC.po sun2.md/spriteInit.po sun2.md/spriteIo.po sun2.md/spriteKbd.po
  1452.  sun2.md/spriteMouse.po sun2.md/linked.o  sun2.md/linked.po *~ sun2.md/*~
  1453.  
  1454. Control-C will unwedge Pmake, but the hang seems to be repeatable (i.e.
  1455. there's no way to get "pmake cleanall" or "pmake clean" to complete).
  1456.  
  1457.  
  1458. 154.
  1459. Date: Thu, 29 Jun 89 18:04:36 PDT
  1460. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  1461. Subject: bug: mint crash in Fs_PrefixDump
  1462.  
  1463. Mint crashed with a bus error.  because we don't keep sources under unix,
  1464. i wasn't able to find out much about what was going on other than
  1465. a backtrace and a local variable list.  I dumped *prefixPtr and it
  1466. was garbage (list pointing to 1 and 4 instead of normal addresses, and so
  1467. on).  This happened right after oregano had its problems with prefix-related
  1468. operations hanging after the ipServer died.
  1469.  
  1470. I rebooted mint with my new kernel, which I will copy over to rosemary as
  1471. soon as mint comes back.  (Mint had been running the JHH kernel, which has
  1472. who-knows-what in it; my kernel has the installed everything except the
  1473. new change for the process timer free() bug, which would have eventually
  1474. crashed mint in any other kernel.)
  1475.  
  1476.  
  1477. 155.
  1478. Subject: bug: ipServer looping?
  1479. Date: Thu, 29 Jun 89 23:21:54 PDT
  1480. From: Fred Douglis <douglis>
  1481.  
  1482. I'm getting pretty awful response when logged in from home, and I
  1483. noticed that the 5-minute load average is over 1 although there are
  1484. none of the usual suspects (cc's and whatever) around.   However, the
  1485. ipServer seems to be in the READY state all or most of the time, at
  1486. least while I am logged in.  Has anyone else noticed this behavior?
  1487.  
  1488.  
  1489. 156.
  1490. Subject: bug: pmake messed up big time
  1491. Date: Fri, 30 Jun 89 19:12:00 PDT
  1492. From: Fred Douglis <douglis>
  1493.  
  1494. see anything funny with this?
  1495.     cd /sprite/src/lib/c/mig/
  1496.     pmake -k debug
  1497.     --- sun3.md/Mig_ConfirmIdle.go ---
  1498.     rm -f sun3.md/Mig_ConfirmIdle.go
  1499.     cc  -O -msun3   -I. -Isun3.md -g -c Mig_ConfirmIdle.c -o sun3.md/Mig_Confirm
  1500. Idle.go
  1501.     --- ../sun3.md/libc_g.a ---
  1502.     ar r ../sun3.md/libc_g.a sun3.md/Mig_ConfirmIdle.go
  1503.     ar: filename Mig_ConfirmIdle.go truncated to Mig_ConfirmIdle
  1504.     /sprite/cmds.sun3/ranlib  ../sun3.md/libc_g.a
  1505. --> rm -rf sun3.md/Mig/sprite/cmds.sun3/ranlib  ../sun3.md/libc_g.a
  1506.     rm -rf sun3.md/MigAsciiToInternal.go sun3.md/MigGetLocalName.go sun3.md/MigI
  1507. nternalToAscii.go sun3.md/Mig_ConfirmIdle.go sun3.md/Mig_Done.go sun3.md/Mig_Get
  1508. AllInfo.go sun3.md/Mig_GetIdleNode.go sun3.md/Mig_GetInfo.go sun3.md/Mig_OpenInf
  1509. o.go sun3.md/Mig_UpdateInfo.go
  1510.  
  1511.  
  1512. 157.
  1513. Date: Sun, 2 Jul 89 18:51:12 PDT
  1514. From: mgbaker (Mary Gray Baker)
  1515. Subject: redirect bug
  1516.  
  1517. If I try to move /tmp/goo to /a/attcmds/csh/sun4.md/csh, the sun3.new kernel
  1518. crashes with a VmRawAlloc out of memory bug.  It is dying in FsLookupRedirect
  1519. at line 564 with a prefixLength that is total garbage.
  1520.  
  1521.  
  1522. 158.
  1523. From: rab (Robert A. Bruce)
  1524. Subject: bug: makedepend
  1525. Date: Mon, 03 Jul 89 23:43:44 PDT
  1526.  
  1527. makedepend apparently goes into an infinite loop when I run mkmf
  1528. in /a/newcmds/cc1.68k.
  1529.  
  1530.  
  1531. 159.
  1532. Date: Fri, 7 Jul 89 21:44:37 PDT
  1533. From: douglis (Fred Douglis)
  1534. Subject: bug: oregano died with leftover indirect block
  1535.  
  1536. yet again.  it was down for over an hour, including the time needed
  1537. to check its disks when I rebooted.  
  1538.  
  1539. Mint crashed with the same complaint earlier today.
  1540.  
  1541.  
  1542. 160.
  1543. Date: Sun, 9 Jul 89 22:04:09 PDT
  1544. From: brent (Brent Welch)
  1545. Subject: pmake sun4 TM bug
  1546.  
  1547. pmake on a sun4 doesn't default to TM=sun4 correctly, it defaults to sun3.
  1548. However, on the plus side, I was able to compile and install a
  1549. working rshd from anise for the sun4s.
  1550.  
  1551.  
  1552. 161.
  1553. Date: Mon, 10 Jul 89 13:30:21 PDT
  1554. From: douglis (Fred Douglis)
  1555. Subject: bug: FsRemoteDomainInfo: waiting for recovery
  1556.  
  1557. this should probably time out instead of waiting for recovery.  Otherwise,.
  1558. it seems that a down host can cause all operations involving the prefix
  1559. table to hang indefinitely, including anything one might try to remove the
  1560. offending entry in the first place.
  1561.  
  1562.  
  1563. 162.
  1564. Date: Mon, 10 Jul 89 18:25:49 PDT
  1565. From: mgbaker (Mary Gray Baker)
  1566. Subject: assembler bug for sun4 assembling
  1567.  
  1568. The sprite (gnu) assembler calls abort() when it sees a load or store
  1569. instruction to an alternate space.  This means I can't assemble most of the
  1570. sun4 kernel assembly code since it's got a lot of loads and stores to
  1571. control space, etc.
  1572.  
  1573.  
  1574. 163.
  1575. Date: Tue, 11 Jul 89 18:32:41 PDT
  1576. From: mgbaker (Mary Gray Baker)
  1577. Subject: ld bug for linking sun4 stuff
  1578.  
  1579. The linker gets a segmentation violation when I try to link my sun4 kernel.
  1580. There could certainly be something wrong with the obj's I'm trying to link,
  1581. but what the debugger is saying makes no sense.
  1582.  
  1583.  
  1584. 164.
  1585. Subject: bug: ggraph  broken
  1586. Date: Wed, 12 Jul 89 01:53:58 PDT
  1587. From: Fred Douglis <douglis>
  1588.  
  1589. the installed version gave me a bizarre line on an input file that
  1590. generated a good graph on unix. remembering andreas's comment about
  1591. floats and doubles in gcc, i tried recompiling after changing all
  1592. floats to doubles, but this time i hit a bus error running ggraph.  
  1593.  
  1594.  
  1595. 165.
  1596. Date: Wed, 12 Jul 89 12:43:39 PDT
  1597. From: pmchen@sprite.Berkeley.EDU (Peter M. Chen)
  1598. Subject: bug report on gettimeofday
  1599.  
  1600. I seem to be going backwards in time once in a while.  The following is a
  1601. trace of my program.
  1602.  
  1603. tp.tv_sec=616275411, tp.tv_usec=910000
  1604. tp.tv_sec=616275410, tp.tv_usec=960000
  1605.  
  1606. Note that in the last line, tv_sec has gone backwards one second.  This
  1607. seems to be consistent on tv_usec = 960000, but not every time.  For example,
  1608.  
  1609.  
  1610.  
  1611.  
  1612. 166.
  1613. Date: Thu, 13 Jul 89 12:30:55 PDT
  1614. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1615. Subject: mx bug
  1616.  
  1617. My mx window appeared to go into an infinite loop. It was in
  1618. CharToLine, and the increment was flipping between -1 and 1.  There
  1619. is a core in my home directory named core.91a34 if someone wants
  1620. to look at it.
  1621.  
  1622.  
  1623. 167.
  1624. Subject: bug?  /hosts protections
  1625. Date: Thu, 13 Jul 89 15:05:03 PDT
  1626. From: Fred Douglis <douglis>
  1627.  
  1628. Just about all the /hosts/*.EDU directories are mode 777.  Anyone know
  1629. why this is the case?  Makes /hosts/.../nologin a bit of a problem.
  1630.  
  1631.  
  1632. 168,
  1633. Subject: bug: setpriority() not implemented
  1634. Date: Thu, 13 Jul 89 17:13:03 PDT
  1635. From: Fred Douglis <douglis>
  1636.  
  1637. Garth, just a warning if you should use sprite for your simulations.
  1638. the unix setpriority() call just returns success without doing
  1639. anything.   I think this may be because unix and sprite priorities are
  1640. implemented differently.  In sprite, a priority of "-1" means double
  1641. all charged usage, while "-2" means quadruple it, and so on.  Since
  1642. unix priorities are linear instead of exponential, someone could have
  1643. undesired consequences if he used two different unix priorities in one
  1644. way and in sprite the relative difference was greater.  
  1645.  
  1646.  
  1647. 169.
  1648. Date: Thu, 13 Jul 89 23:59:38 PDT
  1649. From: mgbaker (Mary Gray Baker)
  1650. Subject: pmake hanging bug
  1651.  
  1652. Different parts of pmakes keep hanging randomly.  If I kill and restart the
  1653. pmake, it usually goes just fine.  Perhaps it has to do with the choice of
  1654. machines, since when it's restarted it usually gets a different machine.
  1655.  
  1656.  
  1657. 170.
  1658. Date: Fri, 14 Jul 89 12:11:10 PDT
  1659. From: pmchen@sprite.Berkeley.EDU (Peter M. Chen)
  1660. Message-Id: <8907141911.AA76841@sprite.Berkeley.EDU>
  1661. To: /sprite/users/pmchen/mail/sprite/mbox, sprite@sprite.Berkeley.EDU
  1662. Subject: su-suspend bug
  1663.  
  1664. If I su, suspend the process, then fg it, the su process ends.  Am I doing
  1665. this wrong (ie. do I need to do this differently than on UNIX)?
  1666.  
  1667.  
  1668. 171.
  1669. Date: Fri, 14 Jul 89 13:43:16 PDT
  1670. From: mgbaker (Mary Gray Baker)
  1671. Subject: Another gcc bug
  1672.  
  1673. Gcc seems only to look at the size of a structure before determining whether
  1674. to use byte, half-word or whole-word loads and stores for structure assignment.
  1675. This doesn't take into account alignment of the structue.  The following code
  1676. seg faults because it attempts to do half-word loads and stores on an odd
  1677. boundary.
  1678.  
  1679.  
  1680. 172.
  1681. Date: Fri, 14 Jul 89 14:35:32 PDT
  1682. From: mgbaker (Mary Gray Baker)
  1683. Message-Id: <8907142135.AA133167@sprite.Berkeley.EDU>
  1684. To: sprite
  1685. Subject: Gcc alignment bug
  1686.  
  1687. Okay, MAYBE this isn't really a bug, but it sure would be nice if things
  1688. were aligned or at least sized so that they would be aligned.  The initialized
  1689. odd-length string here causes the following initialized structure to be on an
  1690. odd byte boundary.  This happens in about 5 or 6 places in the kernel and
  1691. causes all sorts of havoc when combined with the gcc bug that does loads and
  1692. stores based on the size of a structure regardless of its alignment.
  1693.  
  1694.  
  1695. 173.
  1696. Date: Fri, 14 Jul 89 18:23:10 PDT
  1697. From: mendel (Mendel Rosenblum)
  1698. Subject: printing to lw477 broken
  1699.  
  1700. When I try to print to lw477 I get the message:
  1701. <51>Jul 14 18:15:21 lpd[c1139]: lw477: ioctl(TIOCLBIS): invalid argument
  1702. but no output.
  1703.  
  1704.  
  1705. 174.
  1706. Subject: race condition bug w/ migration
  1707. Date: Fri, 14 Jul 89 19:06:30 PDT
  1708. From: Fred Douglis <douglis>
  1709.  
  1710. doing many migrations in parallel seems to cause "non-ready process in
  1711. ready queue" on an infrequent basis.  the non-ready process has the
  1712. state PROC_EXITING but a backtrace indicates it thinks it should be
  1713. waiting for an RPC.  i'll look into this ASAP.
  1714.  
  1715.  
  1716. 175.
  1717. Date: Sun, 16 Jul 89 02:30:35 PDT
  1718. From: eklee (Edward K. Lee)
  1719. Subject: possible tx geometry bug
  1720.  
  1721. Executing "tx =NxM+X+Y" results in a tx window with only M-1 rows.
  1722. However, executing "geometry =NxM+X+Y" from tx does give you M rows.
  1723.  
  1724.  
  1725. 176.
  1726. Subject: bug: a.out.c out of date?
  1727. Date: Mon, 17 Jul 89 11:23:41 PDT
  1728. From: Fred Douglis <douglis>
  1729.  
  1730. There are references to Aout_PageSize that appear to subscript into
  1731. the array based on M_SPARC while Aout_PageSize is only set up for
  1732. M_68020.   The source file is /sprite/src/lib/c/etc/a.out.c.
  1733.  
  1734.  
  1735. 177.
  1736. Subject: bug: full kernel build disk
  1737. Date: Mon, 17 Jul 89 17:54:35 PDT
  1738. From: Fred Douglis <douglis>
  1739.  
  1740. oregano hung up again when Mendel tried to remove something from
  1741. /sprite/src/kernel and it was full.   I was able to free up a large
  1742. chunk of space without getting hung, somehow -- I removed
  1743. /sprite/src/kernel/sprite/sun3.{old,23Jun...}. 
  1744.  
  1745.  
  1746. 178.
  1747. Subject: bug: tftpd causing lingering kernel lost+found files 
  1748. Date: Tue, 18 Jul 89 12:03:43 PDT
  1749. From: Fred Douglis <douglis>
  1750.  
  1751. /sprite/src/kernel had 75 megabytes in lost+found, so I tried to
  1752. remove the files.  They were almost all mgbaker kernels.  After
  1753. removing them, the disk space didn't get reclaimed.  I poked around a
  1754. bit and eventually found that mint has about 20-30 tftpd processes
  1755. lying around.  I think they must have open handles on the sun4 kernel
  1756. files.  Do we have a tftpd maintainer in the house?
  1757.  
  1758.  
  1759. 179.
  1760. Subject: bug: lost+found reference counts
  1761. Date: Tue, 18 Jul 89 14:19:38 PDT
  1762. From: Fred Douglis <douglis>
  1763.  
  1764. some of these are clearly bogus:
  1765. drwxrwxr-x  0 root     wheel        8192 Jul  7 15:50 /a/lost+found
  1766. drwxrwxr-x -3 root     wheel        8192 Jul  7 15:50 /b/lost+found
  1767. drwxrwxr-x  2 root     wheel       16384 Jul  8 18:03 /c/lost+found
  1768. drwxrwxr-x -1 root     wheel        8192 Jul 12 17:47 /sprite/lost+found
  1769. drwxrwxr-x  2 root     sprite        5
  1770.  
  1771.  
  1772. 180.
  1773. From: rab (Robert A. Bruce)
  1774. Subject: read error
  1775. Date: Thu, 20 Jul 89 07:02:45 PDT
  1776.  
  1777. The dump program crashed last night after getting a read
  1778. error on the file /sprite/spool/mail/mgbaker.  The error
  1779. occured at byte offset 51200.
  1780.  
  1781.  
  1782.  
  1783. 181.
  1784. Date: Thu, 20 Jul 89 23:47:35 PDT
  1785. From: shirriff (Ken Shirriff)
  1786. Subject: Mail got messed up
  1787.  
  1788. One of the messages in my mail file seems to have got messed up somehow.
  1789. For some reason, 12 lines of Tex appeared in my mail file:
  1790.  
  1791.  
  1792. 182.
  1793. Subject: bug: nfs symbolic links incompatible 
  1794. Date: Thu, 20 Jul 89 23:58:42 PDT
  1795. From: Fred Douglis <douglis>
  1796.  
  1797. I made a set of symbolic links on /rosemary/spare, running on sprite,
  1798. and then tried to reference them from dill (running ultrix).  It
  1799. complained they were invalid.  rosemary also misbehaved, though in
  1800. rosemary's case "cat foo" would list the name of the file foo points
  1801. to, as though it weren't a symbolic link and the contents were being
  1802. printed.  sprite acted like ultrix: 
  1803.  
  1804.     paprika% ln -s foo bar
  1805.     paprika% cat bar
  1806.     bar: invalid argument
  1807.  
  1808. I removed the links on dill and recreated them running on dill.  This
  1809. time they worked.  The resulting links were readable by all hosts.  
  1810. Is this a case of sprite and unix having inconsistent sizes (relating
  1811. to the trailing null character, maybe)?
  1812.  
  1813.  
  1814. 183.
  1815. Subject: bug with kernel idle time var.
  1816. Date: Fri, 21 Jul 89 13:09:19 PDT
  1817. From: Fred Douglis <douglis>
  1818.  
  1819. there used to be a special check to only update the idle time on
  1820. keyboard or mouse input.  looks like now serialB updates it too, so
  1821. printing causes eviction.
  1822.  
  1823.  
  1824. 184.
  1825. Subject: bug making libraries
  1826. Date: Sat, 22 Jul 89 14:15:35 PDT
  1827. From: Fred Douglis <douglis>
  1828.  
  1829. I am trying to create libX11.a for the ds3100.  When I went into the
  1830. source directory and did a pmake, it made all the object files but
  1831. produced a lot of empty "ar r" lines that didn't actually replace the
  1832. object files or remove them.  In some cases they actually were added
  1833. to the archive, but not usually, and i don't see a pattern explaining
  1834. why it only happened some times.
  1835.  
  1836. "pmake -n" listed a bunch of commands to do the actual "ar" commands,
  1837. but "pmake" by itself did the empty "ar" commands again. I finally
  1838. broke down and am doing  a single "ar ... */ds3100.md/*.o" from the
  1839. shell.  
  1840.  
  1841.  
  1842. 185.
  1843. Date: Sun, 23 Jul 89 11:43:10 PDT
  1844. From: mendel (Mendel Rosenblum)
  1845. Subject: Can't start X without ipServer
  1846.  
  1847. Xsprite jumps into the debugger when it is started and the ipServer is not
  1848. running.  No message is produced, xinit just hangs.  
  1849.  
  1850.  
  1851. 186.
  1852. Subject: bug: lpd repeatedly restarting 
  1853. Date: Sun, 23 Jul 89 20:20:59 PDT
  1854. From: Fred Douglis <douglis>
  1855.  
  1856. with the new serial line driver, when lw477 ran out of paper, I get
  1857. messages saying things like
  1858.  
  1859.     <54>Jul 23 20:19:29 lpd[50b39]: restarting lw477
  1860.     Warning: receiver overrun on serialB
  1861.     Warning: receiver overrun on serialB
  1862.     Warning: receiver overrun on serialB
  1863.     <54>Jul 23 ... lpd[50b39]: restarting lw477
  1864.  
  1865. i don't believe i ever saw this behavior using the old kernel.
  1866.  
  1867.  
  1868. 187.
  1869. Date: Fri, 21 Jul 89 09:18:01 PDT
  1870. From: ouster (John Ousterhout)
  1871. Message-Id: <8907211618.AA138019@sprite.Berkeley.EDU>
  1872. To: sprite
  1873. Subject: Bug: crash during boot
  1874.  
  1875. Mace crashed twice in a row while booting "sun3.ouster" this morning.
  1876. The crash happened just after messages appeared on the console about
  1877. initiating recovery, relatively early in the boot process.  Here's
  1878. some information f
  1879. rom Kgdb:
  1880.  
  1881. Stack:
  1882. #0  0xe0575b0 in Timer_ScheduleRoutine (newElementPtr=(Timer_QueueElement *) 0xe
  1883. 07c090, interval=1) (timerQueue.c line 374)
  1884. #1  0xe04d9da in RpcDaemonWait (queueEntryPtr=(Timer_QueueElement *) 0xe07c090) 
  1885. (rpcDaemon.c line 418)
  1886. #2 0xe04d3f6 in Rpc_Daemon () (rpcDaemon.c line 109)
  1887. #3 0xe0523c0 in Sched_StartKernProc (func=(void (*)()) 0xe04d3b8) (schedule.c li
  1888. ne 839)
  1889.  
  1890. At this point in the code, itemPtr was 0xffffffff, and I found a bogus
  1891. element at the end of the timer queue.  The contents of the element were:
  1892.  
  1893. (links = (prevPtr = 0xffffffff, nextPtr = 0xffffffff), routine = 0xe04da8a, time
  1894.  = (seconds = 16, microseconds = 330000), clientData = 0xffffffff, processed = 0
  1895. , interval = 2000)
  1896.  
  1897. The "routine" was pointing to Rpc_DaemonWakeup.
  1898.  
  1899.  
  1900. 188.
  1901. Date: Sun, 23 Jul 89 21:48:11 PDT
  1902. From: ouster (John Ousterhout)
  1903. Subject: Adding a new ds3100
  1904.  
  1905. This one is for the bug list:  I suggest that we should modify our
  1906. version of bootp to read /etc/spritehosts, so that it isn't necessary
  1907. to modify /etc/bootptab whenever new hosts are added.
  1908.  
  1909.  
  1910. 189.
  1911. Date: Mon, 24 Jul 89 13:52:07 PDT
  1912. From: mendel (Mendel Rosenblum)
  1913. Subject: bug in fsstat output
  1914.  
  1915. The Internal fragmentation statistics from the fsstat command are totally
  1916. bogus.  I've fixed the bug in the kernel routine Fs_CheckFragmentation that
  1917. caused this problem. 
  1918.  
  1919.  
  1920. 190.
  1921. Date: Mon, 24 Jul 89 18:16:18 PDT
  1922. From: mendel (Mendel Rosenblum)
  1923. Subject: bug in timing on ds3100
  1924.  
  1925. The csh time command givens bogus numbers on the ds3100 running Sprite.  The
  1926. CPU time is greater than the wall clock time. For example:
  1927.  
  1928. pride% cat direntires* | awk -f a > /dev/null
  1929. 186.5u 12.3s 1:27 227% 0+0k 0+0io 0pf+0w 212+5101csw
  1930.  
  1931.  
  1932. 191.
  1933. Date: Tue, 25 Jul 89 08:57:22 PDT
  1934. From: mendel (Mendel Rosenblum)
  1935. Subject: bug in bootp
  1936.  
  1937. The bootp deamon goes into an infinite CPU loop if you kill the ipServer.
  1938.  
  1939.  
  1940. 192.
  1941. Date: Tue, 25 Jul 89 09:51:26 PDT
  1942. From: mendel (Mendel Rosenblum)
  1943. Subject: ipServer on mint died
  1944.  
  1945. When I came in this morning the ipServer on mint was in the debugger.  It
  1946. died in malloc() with a segmentation fault because the large memory 
  1947. pool free list was corrupted.  I couldn't figure what caused the problem
  1948. but the memory near the corrupted pointer contained the string 
  1949. "Copyright (C) 1989 Digital Equipment Corporation."  I think it might of 
  1950. just choked on this :-)
  1951.  
  1952.  
  1953. 193.
  1954. Date: Tue, 25 Jul 89 14:30:31 PDT
  1955. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1956. Subject: sun3.new broken
  1957.  
  1958. I tried to boot sun3.new on mint and fscheck failed because it couldn't
  1959. read /dev/rxy0a. Did something change in the dev module?
  1960.  
  1961.  
  1962. 194.
  1963. Subject: differences between ansi C and DEC C
  1964. Date: Tue, 25 Jul 89 16:15:53 PDT
  1965. From: Fred Douglis <douglis>
  1966.  
  1967. I'm running into a lot of trouble porting certain programs to sprite,
  1968. because the ultrix compiler doesn't understand the same things.  For
  1969. example, in diff, "void *" causes headaches, and I had to put in
  1970.  
  1971.     #ifndef __STD_C__
  1972.     #define void int
  1973.     #endif /* __STD_C__ */
  1974.  
  1975. before the uses of this.  Ugh.  I couldn't port "file" before for a
  1976. similar reason (and wound up just copying over the ultrix binary).  
  1977.  
  1978.  
  1979. 195.
  1980. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  1981. To: bugs
  1982. Subject: flock broken
  1983.  
  1984. flock() doesn't seem to work on sun3.new. It returns with an invalid
  1985. argument.  I don't know what the behavior is on sun3.
  1986.  
  1987.  
  1988. 196.
  1989. Date: Wed, 26 Jul 89 18:40:21 PDT
  1990. From: mgbaker (Mary Gray Baker)
  1991. Subject: directories getting locked
  1992.  
  1993. Sometimes when I do a pmake that migrates, it hangs.  I can't kill it.
  1994. Then if I try to do an ls in the same directory, it hangs too and I can't
  1995. kill it.  The directory becomes totally unavailable.  This is inconvenient.
  1996.  
  1997.  
  1998. 197.
  1999. Subject: bug with ds3100 ar
  2000. Date: Wed, 26 Jul 89 22:20:05 PDT
  2001. From: Fred Douglis <douglis>
  2002.  
  2003. I hit the following:
  2004.  
  2005.     ar r ../ds3100.md/libc.a ds3100.md/MigAsciiToInternal.o ds3100.md/MigGetLoca
  2006. lName.o ds3100.md/MigInternalToAscii.o ds3100.md/Mig_ConfirmIdle.o ds3100.md/Mig
  2007. _Done.o ds3100.md/Mig_GetAllInfo.o ds3100.md/Mig_GetIdleNode.o ds3100.md/Mig_Get
  2008. Info.o ds3100.md/Mig_OpenInfo.o ds3100.md/Mig_UpdateInfo.o
  2009.     ar: Info: filename MigAsciiToInternal.o truncated to MigAsciiToInter
  2010.     ...
  2011.     ar: Warning:ignoring second definition of MigAsciiToInternal defined in arch
  2012. ive
  2013.     ...
  2014.  
  2015. indeed, there are two copies with the same name in there.
  2016.  
  2017.  
  2018. 198.
  2019. Subject: bug: ipserver dying hangs console; migrating prefixes
  2020. Date: Thu, 27 Jul 89 17:46:43 PDT
  2021. From: Fred Douglis <douglis>
  2022.  
  2023. this has probably been reported before; maybe we can boost its
  2024. priority.  when mint's ipserver died this afternoon, we were unable to
  2025. login at the console to kill it and start a new one.  we could not
  2026. migrate to mint because mint was running an old version of migration.
  2027. finally, jhh suggested that i rlogin to tonkawa and migrate from
  2028. there.  (this worked, but only after i cd'd to /sprite, since "/" on
  2029. tonkawa is different from "/" on mint, and mint tried to load its
  2030. prefix table by broadcasting for "/" when it didn't already have a
  2031. handle for "/" on tonkawa.)
  2032.  
  2033. anyway, i was able to kill the ipserver once i could find it, and ken
  2034. restarted mint's servers.
  2035.  
  2036.  
  2037. 199.
  2038. From: rab (Robert A. Bruce)
  2039. Subject: problems with /user1
  2040. Date: Thu, 27 Jul 89 15:45:35 PDT
  2041.  
  2042. Martha reported the following problem with /user1:
  2043. > My sprite account (/user1/zimet) appears to be hosed...
  2044. > I have been having problems all day with rsh, rcp, etc. 
  2045. > into my directory on sprite.  Is this usual?  
  2046.  
  2047.  
  2048. 200.
  2049. Date: Fri, 28 Jul 89 09:17:17 PDT
  2050. From: mendel (Mendel Rosenblum)
  2051. Message-Id: <8907281617.AA528685@sprite.Berkeley.EDU>
  2052. To: bugs
  2053. Subject: /user1 unreadable from cory
  2054.  
  2055.  
  2056. The problem is that the correct netroute command is not being run on allspice.
  2057. It should run a "netroute -s" before installing /etc/spritehosts into the
  2058. kernel.  I have no idea which of the several bootcmds is getting run.  
  2059. The copies are in 
  2060.     /boot/bootcmds
  2061.     /hosts/allspice/bootcmds
  2062.     /allspiceA/hosts/allspice/bootcmds
  2063.  
  2064. which one should be modified?  
  2065.  
  2066.  
  2067. 201.
  2068. From: rab (Robert A. Bruce)
  2069. Subject: allspice out of memory
  2070. Date: Sat, 29 Jul 89 03:59:58 PDT
  2071.  
  2072. Allspice ran out of memory while /user1
  2073. was being dumped.
  2074.  
  2075.  
  2076. 202.
  2077. From: rab (Robert A. Bruce)
  2078. Subject: trashed file
  2079. Date: Tue, 01 Aug 89 02:03:32 PDT
  2080.  
  2081. /sprite/src/lib/c/ctype/isdigit.c was trashed.  I moved the file
  2082. into isdigit.c.trash and restored the RCS'ed version.  This is the
  2083. garbage that was in the file:
  2084. --------------------------------------------------------------------------------
  2085. isdigit(LIB
  2086. $(LINTLIB)    : $(SRCS:M*.c) $(HDRS) MAKELINT
  2087. d207 4
  2088. a210 3
  2089. library        : $(REGLIB)
  2090. profile        : $(PROFLIB)
  2091. lint        : $(LINTLIB)
  2092. d212 5
  2093. a216 4
  2094. --------------------------------------------------------------------------------
  2095.  
  2096.  
  2097. 203.
  2098. Date: Fri, 28 Jul 89 09:21:46 PDT
  2099. From: mendel (Mendel Rosenblum)
  2100. Subject: fscheck bug
  2101.  
  2102. Fscheck on allspice running on partition /user1 produced 504 messages of
  2103. the form:
  2104.  
  2105. Block count corrected for file 73341.  Is 8 should be 6.
  2106. ...
  2107. Block count corrected for file 73366.  Is 8 should be 5.
  2108.  
  2109. And 28 messages of the form:
  2110.  
  2111. File zimet/X11R3/mit-dist/X11/bitmaps/right_ptrmsk references non-allocated desc
  2112. riptor 12987. File Deleted.
  2113. ...
  2114. File zimet/X11R3/mit-dist/X11/bitmaps/sipb references non-allocated descriptor 1
  2115. 2990. File Deleted.
  2116.  
  2117. Is somethink broken here?
  2118.  
  2119.  
  2120. 204.
  2121. Subject: bug: random address fault after recovery
  2122. Date: Fri, 28 Jul 89 09:34:15 PDT
  2123. From: Fred Douglis <douglis>
  2124.  
  2125. I found that a window of mine had gone away, though I saw no msg in 
  2126. my syslog to account for it (such as a page fault problem).  However,
  2127. when I tried to restart the program (emacs), it hit a bus error immediately.
  2128. When I killed the debuggable process and tried again, it worked okay.
  2129.  
  2130. I have no idea how to repeat this bug, but I thought it would be worth
  2131. reporting in case it becomes more common (big game).
  2132.  
  2133.  
  2134. 205.
  2135. Subject: I want to debug hanging migrations
  2136. Date: Fri, 28 Jul 89 10:41:57 PDT
  2137. From: Fred Douglis <douglis>
  2138.  
  2139. People have become fairly complacent about problems with the system,
  2140. killing processes and/or rebooting when things break rather than
  2141. taking the time for someone to investigate the problem in detail.
  2142. This makes it harder to identify the problems when they arise.  At
  2143. this point, there's one bug in particular that I'd like to ask people
  2144. to tell me about immediately: if a pmake hangs part-way through, I
  2145. want to debug the two machines involved and figure out what's going
  2146. on.  If I'm on the system, please come to me rather than killing the
  2147. pmake.
  2148.  
  2149. (Spriters: this is related to the bug Mary saw w.r.t. file locks.  I
  2150. didn't see the simple explanation I hoped to see, so I need to look
  2151. into this the next time it comes up instead.)
  2152.  
  2153.  
  2154. 206.
  2155. Date: Fri, 28 Jul 89 14:19:36 PDT
  2156. From: ouster (John Ousterhout)
  2157. Subject: DS3100 bug:  not enough processes?
  2158.  
  2159. While beating on Pride to flush out the ipServer bug I created
  2160. lots of processes.  At one point the kernel entered the debugger
  2161. with the message "Mach_SetupNewState:  Out of machine state structs".
  2162. Sounds like maybe the limit on # of processes and the number of
  2163. states in Mach don't match.
  2164.  
  2165. 207.
  2166. Subject: ds3100 bug: WaitForSomething message
  2167. Date: Fri, 28 Jul 89 15:10:50 PDT
  2168. From: Fred Douglis <douglis>
  2169.  
  2170. I keep getting "WaitForSomething(): select: errno=73" blasted on the
  2171. console of the ds3100, despite having a window catting /dev/syslog.
  2172.  
  2173. 208.
  2174. Date: Fri, 28 Jul 89 15:16:04 PDT
  2175. From: mgbaker (Mary Gray Baker)
  2176. Subject: tx extra selection stripe
  2177.  
  2178. Sometimes in tx I get a black stripe to the right of the cursor that won't
  2179. go away.  It looks just like a selection, but it isn't the selection since
  2180. it stays when I select something elsewhere.  Clearing the window, etc, doesn't
  2181. get rid of it.  How do I make it go away?
  2182.  
  2183.  
  2184. 209.
  2185. Subject: bug: server deadlocks
  2186. Date: Fri, 28 Jul 89 16:18:29 PDT
  2187. From: Fred Douglis <douglis>
  2188.  
  2189. the time /a filled up, i couldn't get out of a process on kvetching
  2190. (swapping off of allspice) and i saw a message about a remove RPC to
  2191. allspice being hung.  It's bad enough when a remove on a full disk
  2192. gets hung, but when a remove on an empty disk on another machine gets
  2193. hung, something's pretty bad.
  2194.  
  2195. some of us have also noticed that allspice has had a tendency to hang
  2196. or crash when mint or oregano dies.  any suggestions about what might
  2197. be causing this interdependency would certainly be appreciated!
  2198.  
  2199.  
  2200. 210.
  2201. Subject: bug: can't backtrace user stack in kgdb
  2202. Date: Fri, 28 Jul 89 16:43:07 PDT
  2203. From: Fred Douglis <douglis>
  2204.  
  2205. I am trying to find out why a migrated process is in the WAIT state,
  2206. but when I do "where" from kgdb it just returns without printing
  2207. anything, and "i r" prints 0 for all the registers.  Seems like the
  2208. debugging interface is screwed up.    This is the Jul24 installed
  2209. kernel. 
  2210.  
  2211. 211.
  2212. Date: Fri, 28 Jul 89 19:51:21 PDT
  2213. From: gibson (Garth Gibson)
  2214. Message-Id: <8907290251.AA722218@sprite.Berkeley.EDU>
  2215. To: bugs
  2216. Subject: ds3100
  2217.  
  2218. I've tried to port my simulation code to the 3100s (kvetching).  After
  2219. Fred fixed one problem I ran into this:
  2220.  
  2221. It appears to go through initialization, including a printf, then it
  2222. hangs.  When I run it under dbx and arbitrarily ^C, I get:
  2223. Interrupt [scalb, :0x408474]
  2224. swc1    f20,20(sp)
  2225. (dbx) where
  2226. >  0 scalb(x = 1.0, N = 54) [0x408474]
  2227.    1 scalb(x = 1.0, N = 54) ["ds3100.md/support.c":98, 0x40853c]
  2228.    2 scalb(x = 1.0, N = 54) ["ds3100.md/support.c":98, 0x40853c]
  2229.    3 scalb(x = 1.0, N = 54) ["ds3100.md/support.c":98, 0x40853c]
  2230.    4 scalb(x = 1.0, N = 54) ["ds3100.md/support.c":98, 0x40853c]
  2231.    5 scalb(x = 1.0, N = 54) ["ds3100.md/support.c":98, 0x40853c]
  2232. and at least 400 more lines identical to the last 5.
  2233.  
  2234. When I  stopped at a particular address and "next"ed forward I get:
  2235. [2] stopped at [.block2:612 ,0x401144]     if( st_time_til_loss.cnt>=iters ) {
  2236. (dbx) next
  2237. [.block3:638 ,0x4014ec]     for( i=0; i<num_disks; i++ ) {
  2238. (dbx) next
  2239. [.block3:639 ,0x401508]     disks[i].failed = FALSE;
  2240. (dbx) next
  2241. [.block3:640 ,0x40152c]     if( init_fail_rate != 0 ) { /* use Brady lifetim
  2242. e distr */
  2243. (dbx) next 
  2244.  
  2245. Illegal instruction [.block3:640 +0x1c,0x401548]
  2246.      if( init_fail_rate != 0 ) { /* use Brady lifetime distr */
  2247. (dbx) where
  2248. >  0 .block3 ["reli.c":640, 0x401548]
  2249.    1 .block2 ["reli.c":640, 0x401548]
  2250.    2 main(argc = 1, argv = 0x7fdffd0c) ["reli.c":640, 0x401548]
  2251.  
  2252. and Fred tells me that kvetching's console got a message about 
  2253. "invalid breakpoint".
  2254.  
  2255. I'm declaring failure for awhile, so I'll copy my code (~gibson/RELI/reli.c)
  2256. to (~gibson/RELI/reli.c.bug) and leave the executable (same/ds3100.md/RELI).
  2257.  
  2258.  
  2259. 212.
  2260. Date: Sat, 29 Jul 89 09:53:11 PDT
  2261. From: mendel (Mendel Rosenblum)
  2262. Subject: allspice recovery damages processes on murder
  2263.  
  2264. Just after allspice recovered last night a Xsprite, tx, and cat /dev/syslog 
  2265. I had running on murder entered the debugger with a segmentation fault.  
  2266.  
  2267.  
  2268. 213.
  2269. Date: Sat, 29 Jul 89 15:12:52 PDT
  2270. From: gibson (Garth Gibson)
  2271. Message-Id: <8907292212.AA66852@sprite.Berkeley.EDU>
  2272. To: bugs
  2273. Subject: reseting tx
  2274.  
  2275. when i break out of top in an odd way
  2276. (in this case, I killed a process from within top
  2277. and somehow this terminated the top)
  2278. none of my keystrokes are echoed
  2279.  
  2280. when this happened on BSD i did a "reset" but
  2281. reset in tx says "Type tx unknown"
  2282.  
  2283. using the menu entry "clear and reset window" also fails
  2284. to turn keystroke echoing back on
  2285.  
  2286.  
  2287. 214.
  2288. Date: Sun, 30 Jul 89 15:45:16 PDT
  2289. From: gibson (Garth Gibson)
  2290. Subject: nfsmount core leak ?
  2291.  
  2292. Basil is currently experiencing substantial paging whenever I do anything
  2293. (ie., in particular copy from nfs to nfs causes > 15 page faults per
  2294. second and the little copy (24KB) takes more than 10 seconds).  Basil
  2295. is the server for the nfsmount of /spur.  It is only an 8MB machine
  2296. and although I do have 12 windows (10 tx) and 5 rsh's running,
  2297. but the problem appears to be nfsmount - it is at 4.2 MB.  When I do things
  2298. that involve local execution, nfsmount is paged out; when I do things
  2299. across nfs, about 2MB are paged in.
  2300.  
  2301. I killed nfsmount and restarted it and its memory usage was only 184 KB.
  2302. I did a giant ls -R across nfs and it grew to 312 KB but seemed to stay
  2303. there.
  2304.  
  2305. Mendel speculated that this might be a core leak in nfsmount.  Does
  2306. anyone want to run nfsmount for /spur on their machine?
  2307.  
  2308.  
  2309. 215.
  2310. Date: Mon, 31 Jul 89 14:23:45 PDT
  2311. From: deboor (Adam R de Boor)
  2312. Subject: vi segv
  2313.  
  2314. I logged in to thyme from envy, so my rows and columns were 0,0. When I did
  2315. an stty rows 61 (forgetting that columns would be 0) and foregrounded a vi,
  2316. it complained about screen too large for internal buffer, then died with
  2317. a segv. It's on the debug queue on thyme (pid e1a49) if anyone wants
  2318. to look at it. If not, could someone kill it for me :)
  2319.  
  2320.  
  2321. 216.
  2322. Subject: bug: ds3100 exec.h/a.out.h inconsistency
  2323. Date: Tue, 01 Aug 89 13:51:11 PDT
  2324. From: Fred Douglis <douglis>
  2325.  
  2326. Programs that use a.out.h won't compile for the ds because N_TXTOFF is
  2327. called with one param in a.out.h but defined to take two params in
  2328. sys/exec.h.  
  2329.  
  2330. 217.
  2331. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2332. To: bugs
  2333. Subject: pmake all does ds3100
  2334.  
  2335. I did a "pmake all" on a sun3 and it compiled a completely worthless
  2336. ds3100 version of the program.  
  2337.  
  2338.  
  2339. 218.
  2340. Subject: warning to people trying to debug on the ds3100
  2341. Date: Wed, 02 Aug 89 17:57:37 PDT
  2342. From: Fred Douglis <douglis>
  2343.  
  2344. Mike said something about adding support for debugging, but for the
  2345. time being, it's often hard to impossible to get a backtrace of a
  2346. process, depending on how it stops.  I removed the mousetrap I had put
  2347. in loadavg, because calling abort() wouldn't let me look at anything
  2348. interesting.  I also find that emacs locks up on me after I start a
  2349. sub-process, maybe one time in 20 or 30, and the backtrace after a
  2350. kill -DEBUG was only one call deep and was probably wrong to boot.
  2351.  
  2352.  
  2353. 219.
  2354. Subject: is time going backward?...
  2355. Date: Wed, 02 Aug 89 19:54:34 PDT
  2356. From: Fred Douglis <douglis>
  2357.  
  2358. ... or are user variables getting trashed?
  2359.  
  2360. finger uses a kernel "idle time" variable that was causing it to get
  2361. confused.  It turned out that kvetching's idle time was -4 seconds.
  2362. Since this is calculated by doing a Timer_GetTimeOfDay and then doing
  2363. another Timer_GetTimeOfDay and subtracting the first from the second,
  2364. a difference of -4 means either that the clock is getting messed up or
  2365. the loadavg daemon's variables are.  given the NaN I've seen, perhaps
  2366. it's the second, in which case this bug report is nothing new, but I
  2367. figured it could also be related to the time-flowing-backward bug that
  2368. Ed reported a while ago.
  2369.  
  2370. all in all, kvetching's clock seems fairly accurate ("date" coincides
  2371. pretty well with reality).
  2372.  
  2373.  
  2374. 220.
  2375. Date: Thu, 3 Aug 89 12:07:42 PDT
  2376. From: douglis@sprite.Berkeley.EDU (Fred Douglis)
  2377. Subject: bug: header updating must change date
  2378.  
  2379. If a header file is installed using update, it's possible for object files
  2380. not to get recompiled because they've been compiled since the date when the
  2381. header was written, even if they haven't been compiled since the header
  2382. was installed.  This could account for why the debugger still can't
  2383. backtrace user processes on sun3s, since kgdb sees the wrong version of
  2384. Mach_UserState.
  2385.  
  2386.  
  2387.  
  2388. 221.
  2389. Subject: bug: ds3100 clock
  2390. Date: Thu, 03 Aug 89 17:31:21 PDT
  2391. From: Fred Douglis <douglis>
  2392.  
  2393. it was 5 minutes slow when I checked just now.  confirmation that time
  2394. may occasionally be flowing backwards, given the -4 seconds idle time
  2395. i saw yesterday.
  2396.  
  2397.  
  2398. 222.
  2399. Subject: bug: tx caret disappearing
  2400. Date: Thu, 03 Aug 89 22:32:12 PDT
  2401. From: Fred Douglis <douglis>
  2402.  
  2403. On paprika, when a tx window fills and starts scrolling, the input
  2404. caret is barely visible at the bottom of the window.  on kvetching,
  2405. the caret disappears entirely, and i must scroll the window up so some
  2406. blank space appears on the bottom in order to get a caret to appear.
  2407.  
  2408. this occurs even if i open a window from paprika on kvetching, so it's
  2409. not the ds3100 tx client (the same sun3 binary produces different results
  2410. on the two different displays).
  2411.  
  2412.  
  2413. 223.
  2414. Date: Fri, 4 Aug 89 08:51:30 PDT
  2415. From: ouster (John Ousterhout)
  2416. Subject: Bug: /sprite/users directory weird
  2417.  
  2418. Something is wrong with /sprite/users, or with du, or with ls.
  2419. If I cd to /sprite/users and type "du", a bunch of lines appear
  2420. for a subdirectory "cmds.ancient".  Yet if I type "ls" in
  2421. /sprite/users, no such directory appears, and I cannot cd to
  2422. /sprite/users/cmds.ancient.  This paradox appears to be
  2423. repeatable, at least for me on Mace.
  2424.  
  2425.  
  2426. 224.
  2427. Subject: bug: inflated loadavgs
  2428. Date: Fri, 04 Aug 89 11:17:05 PDT
  2429. From: Fred Douglis <douglis>
  2430.  
  2431. At least three hosts right now are listed as having load averages of
  2432. over 1.0 although there are apparently no processes using up vast
  2433. amounts of CPU time.  I went to murder and l1-r repeatedly and there
  2434. were never any ready processes.  each host is running a different
  2435. kernel, so it's not like a bug was just introduced.  i suspect that
  2436. the "numReadyProcesses" variable is getting confused but have been
  2437. unable so far to find out how.  If anyone knows of a repeatable case
  2438. to get machines into this state please let me know.
  2439.  
  2440.  
  2441. 225.
  2442. Date: Mon, 7 Aug 89 11:38:47 PDT
  2443. From: mgbaker (Mary Gray Baker)
  2444. Subject: cc include path defaults to sun3.md
  2445.  
  2446. If you compile something for the sun4, without explicitly putting the
  2447. -I/sprite/lib/include/sun4.md back into its include path in a .mk file,
  2448. it will pick up header files from /sprite/lib/include/sun3.md.  I don't think
  2449. this is a good idea, since it silently includes the wrong stuff in many cases.
  2450. Either none of the machine types should have a default include path, or they
  2451. all should have ones that work.
  2452.  
  2453.  
  2454. 226.
  2455. Subject: Mail installed on ds3100
  2456. Date: Mon, 07 Aug 89 11:36:27 PDT
  2457. From: Fred Douglis <douglis>
  2458.  
  2459. I figured out that Mail wouldn't link because it has some arrays of
  2460. structures that the dec compiler/loader can't handle.  this is
  2461. really their bug rather than ours, and I am inclined to patch around
  2462. it temporarily and wait for gcc rather than trying to fix the bug
  2463. (since we don't have sources anyway).  Maybe if Mike wants to pass the
  2464. problem on to people at DEC, that would be useful?
  2465.  
  2466. Anyway, the fix was to add "-G 0" to the cc flags so Mail is compiled
  2467. without using what they call the "global pointer".  
  2468.  
  2469.  
  2470. 227.
  2471. Subject: ds3100 bug: FPU interrupt in kernel mode
  2472. Date: Mon, 07 Aug 89 12:56:51 PDT
  2473. From: Fred Douglis <douglis>
  2474.  
  2475. kvetching died with this just now.  kdbx just kept printing a
  2476. backtrace of an infinite number of MachFPInterrupt calls.  Any
  2477. suggestions of something to look at next time this happens?
  2478.  
  2479.  
  2480. 228.
  2481. Date: Mon, 7 Aug 89 13:59:01 PDT
  2482. From: mgbaker (Mary Gray Baker)
  2483. Subject: no documentation on malloc tracing
  2484.  
  2485. Is there no man page describing how to turn on memory tracing of different
  2486. sorts?  You can read the code and piece it together by trial and error, but
  2487. it sure would be nicer just to read a man page.
  2488.  
  2489.  
  2490. 229.
  2491. Date: Mon, 7 Aug 89 22:33:39 PDT
  2492. From: david@rosemary.Berkeley.EDU (David A. Wood)
  2493. Subject: /tmp on mace and murder
  2494.  
  2495. There seems to be a problem with /c on both mace and murder.
  2496. Since both systems have /tmp linked to /c/tmp, many programs
  2497. (including mail) don't work.
  2498.  
  2499.  
  2500. 230.
  2501. Date: Tue, 8 Aug 89 09:36:15 PDT
  2502. From: ouster (John Ousterhout)
  2503. Subject: Piracy in debugger again
  2504.  
  2505. Piracy has entered the debugger again with the message
  2506.  
  2507.     Bad kernel TLB Fault
  2508.     Entering debugger with a TLB LD miss exeception at PC 0x0
  2509.  
  2510.  
  2511.  
  2512. 231.
  2513. Date: Wed, 9 Aug 89 12:04:51 PDT
  2514. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2515. Subject: migration/rpc problem?
  2516.  
  2517. I get messages of the following type when I do a pmake:
  2518. Warning: Proc_RpcRemoteCall: invalid pid: f1a67.
  2519. The pmake then hangs.  I do have a process f1a67:
  2520. f1a67 MIG      2802 ffffffff sage       c2121 sh -ev 
  2521. Any idea what the problem is?
  2522.  
  2523.  
  2524. 232.
  2525. ubject: bug: repeated recovery
  2526. Date: Tue, 08 Aug 89 15:50:04 PDT
  2527. From: Fred Douglis <douglis>
  2528.  
  2529. kvetching went into an infinite loop recovering w/ mint.
  2530. mint's syslog said:
  2531.  
  2532.     8/8/89 15:47:12 kvetching (2) starting recovery
  2533.     8/8/89 15:47:15 kvetching (2) completed recovery
  2534.     Fs_RpcIOControl: Stream/handle mis-match
  2535.     Stream <32, 32, 165> => File I/O <32, 0, 1881>
  2536.  
  2537. kvetching said file 1881 had a stale handle, and then tried again.
  2538.  
  2539.  
  2540. 233.
  2541. Subject: ds3100 bug: another recovery problem
  2542. Date: Wed, 09 Aug 89 15:50:05 PDT
  2543. From: Fred Douglis <douglis>
  2544.  
  2545. when oregano rebooted, kvetching started printing "(" over and over on
  2546. its console. One process claimed to be in the running state, and lots
  2547. of others were ready.  An RPC to kill the running process got hung
  2548. since the rpc daemon couldn't run.    I rebooted out of frustration,
  2549. though I suppose I should have poked around first.
  2550.  
  2551.  
  2552. 234.
  2553. Subject: ds3100 bug: XIO reset
  2554. Date: Wed, 09 Aug 89 18:10:32 PDT
  2555. From: Fred Douglis <douglis>
  2556.  
  2557. I occasionally have X windows just disappear.  Usually they're my
  2558. xbiff window or the tx that  cats /dev/syslog.  I get "XIO: Connection
  2559. reset by peer" when this happens.   Any ideas?
  2560.  
  2561.  
  2562.  
  2563. 235.
  2564. Date: Thu, 10 Aug 89 11:36:41 PDT
  2565. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  2566. Subject: bug: wall and rlogins
  2567.  
  2568. wall was never fixed to notify remote users.  we have a reasonable number
  2569. of such users, especially Martha, who would appreciate such notification when
  2570. the world is about to end.
  2571.  
  2572. also, wall doesn't talk to the cory hosts because /hosts/tonkawa, et al., 
  2573. aren't the real directories.
  2574.  
  2575.  
  2576.  
  2577.  
  2578. 236.
  2579. Date: Thu, 10 Aug 89 17:06:27 PDT
  2580. From: shirriff (Ken Shirriff)
  2581. Subject: rpn is broken
  2582.  
  2583. I recompiled rpn and now the octal and hex functions don't work.  The
  2584. problem seems to be due to varargs dropping parameters.  Can someone
  2585. who understands varargs better than I do take a look?  The problem is
  2586. in src/main.c around line 147, where it calls dpyprintf.  Then in
  2587. dpyprintf in dpy/dpy.c, the arguments don't seem to be correct.
  2588.  
  2589.  
  2590. 237.
  2591. Date: Thu, 10 Aug 89 18:42:04 PDT
  2592. From: eklee (Edward K. Lee)
  2593. Subject: fscmd
  2594.  
  2595. Sometime when I execute fscmd -f, I get a message saying "1 locked blocks left".
  2596. What does this mean?
  2597. The number of locked blocks seem to accumulate over time.
  2598.  
  2599.  
  2600. 238.
  2601. Date: Fri, 11 Aug 89 09:50:34 PDT
  2602. From: ouster (John Ousterhout)
  2603. Subject: Stale handle warnings
  2604.  
  2605. I've gotten 3 stale handle warnings this morning:
  2606.  
  2607. 8/11/89 8:49:13 oregano (38) RmtFile "/tmp//Mx.Re334.1" <3,55891> Write-back fai
  2608. led: stale handle
  2609. 8/11/89 9:44:36 mint (32) RmtFile "tfAA858935" <1,62649> Write-back failed: stal
  2610. e handle
  2611. 8/11/89 9:44:41 mint (32) RmtFile "/sprite/spool/mail/douglis" <1,1010> Write-ba
  2612. ck failed: stale handle
  2613.  
  2614. I've also gotten 4 "oregano (38) completed recovery" messages this
  2615. morning, even though neither mace nor oregano has crashed.
  2616.  
  2617.  
  2618. 239.
  2619. Date: Fri, 11 Aug 89 10:02:51 PDT
  2620. From: ouster (John Ousterhout)
  2621. Message-Id: <8908111702.AA596784@sprite.Berkeley.EDU>
  2622. To: bugs
  2623. Subject: Bug: finger timing out on pepper
  2624.  
  2625. Whenever I run "finger" right now, the following messages appear
  2626. in my syslog window:
  2627.  
  2628. <getIOAttr> 8/11/89 9:59:20 pepper (16) RPC timed-out
  2629. FsRemoteGetIOAttr failed <30002>: device <0,3343505> at server 16
  2630.  
  2631.  
  2632. 240.
  2633. Subject: stale handles
  2634. Date: Fri, 11 Aug 89 10:15:54 PDT
  2635. From: Fred Douglis <douglis>
  2636.  
  2637. perhaps this is confirmation that the "stale handle" warnings and
  2638. trashed files are related.  John reported "write-back failed" on my
  2639. spool file, and twice this morning my mail file has been corrupted
  2640. (nulls in-between two messages).
  2641.  
  2642.  
  2643. 241.
  2644. Date: Fri, 11 Aug 89 11:17:47 PDT
  2645. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2646. Subject: ds3100 mail problems
  2647.  
  2648. If I type 'ctrl-C' while composing a mail message I get the standard
  2649. "Interrrupt -- one more to kill letter" message. The second "ctrl-C"
  2650. doesn't do anything. I have to type "ctrl-Z" and kill the job.
  2651.  
  2652.  
  2653. 242.
  2654. Subject: bug: null length symlinks
  2655. Date: Fri, 11 Aug 89 13:28:01 PDT
  2656. From: Fred Douglis <douglis>
  2657.  
  2658. When /c filled up before, the symbolic links I created wound up as 0
  2659. length (pointing to nothing).  Directories  weren't created due to
  2660. lack of disk space -- couldn't the same logic be applied to symbolic
  2661. links, rather than creating 0-length links?  (I don't think the
  2662. problem affects files, since once space was freed up the files were
  2663. apparently written okay.)
  2664.  
  2665.  
  2666. 243.
  2667. Date: Fri, 11 Aug 89 13:44:46 PDT
  2668. From: brent (Brent Welch)
  2669. Subject: zero length symbolic links
  2670.  
  2671. Indeed, the current implementation of symbolic links
  2672. has a number of problems, including the feature
  2673. of creating zero-length symbolic links when the
  2674. disk is full.  That problem can be fixed in
  2675. Fs_SymLink by removing the link if the Fs_Write fails.
  2676. However, a more fundamental problem is that the
  2677. creation of symbolic links should be a "domain dependent"
  2678. operation instead of being composed of the open, write, and
  2679. close "domain dependent" operations.  (The problem with
  2680. disk full still has to be addressed with this arrangment.)
  2681. If we make this change then we'll be able to create
  2682. symbolic links in NFS domains correctly.  (Interestingly,
  2683. while the NFS protocol has a SYMLINK RPC, it also allows
  2684. you to create a file of type symbolic link and write
  2685. a value to it.  It's too bad that this works because it
  2686. means that we can create sprite-like symbolic links in
  2687. NFS domains.  The difference is in the presense (in sprite)
  2688. of a trailing null.)
  2689.     brent
  2690. ps.  The file servers already guard against zero-length links,
  2691. so oregano just complained about them.
  2692.  
  2693.  
  2694. 244.
  2695. Date: Fri, 11 Aug 89 14:02:34 PDT
  2696. From: shirriff (Ken Shirriff)
  2697. Message-Id: <8908112102.AA918313@sprite.Berkeley.EDU>
  2698. To: bugs
  2699. Subject: Compiler bug
  2700.  
  2701. On the sun3, if I cast a double to an unsigned int, I get 0.  Casting a
  2702. float to unsigned int or double to int works.
  2703. (This is why rpn wasn't working.)
  2704.  
  2705.  
  2706. 245.
  2707. Date: Fri, 11 Aug 89 14:56:26 PDT
  2708. From: brent (Brent Welch)
  2709. Subject: System failures
  2710.  
  2711. Mint and Oregano crashed and turned up (at least) three bugs.
  2712.  
  2713. 1) pwd in a psuedo-file-system isn't fully correct.  There is
  2714. new code to return the prefix associated with an open file,
  2715. and this crashed Oregano.  The pwd was on sage, and the nfsmount
  2716. was running on Oregano.  I think the bug is that the shadow
  2717. stream descriptor on Oregano (the shadow of the stream set up
  2718. on sage) isn't setup the same as the real stream descriptor on
  2719. sage, and the code should use the client's information instead
  2720. of forwarding the operation to the server.  If that isn't clear,
  2721. then don't worry about it, I think I have a handle on it.
  2722.  
  2723. 2) Mint got an open error on a file in /c/tmp because Oregano
  2724. was down.  It then erased its handle information for the
  2725. /sprite prefix, oops.  Needless to say, this prevented Oregano
  2726. from completing its boot sequence, and required a restart of mint.
  2727. I don't know, yet, why mint would do such a thing.  It may have
  2728. been confused by pathname redirection, /tmp => /sprite/tmp => /c/tmp.
  2729. After getting the error on /c/tmp it wrongly erased information
  2730. about /sprite instead of /c.
  2731.  
  2732. 3) After Mint rebooted /tmp was gone.  Apparently this has happened
  2733. before.  I suspect something in mints boot script.
  2734.  
  2735.  
  2736. 246.
  2737. Date: Fri, 11 Aug 89 16:51:56 PDT
  2738. From: shirriff (Ken Shirriff)
  2739. Subject: kgdb problem
  2740.  
  2741. I ran into a problem debugging on allspice with kgdb.sun3.  The debugger
  2742. would crash with a segmentation violation when I tried to examine a
  2743. particular structure.
  2744.  
  2745. I tried to recompile kgdb.sun3 to help find the problem, but when I try
  2746. to recompile kgdb.sun3/values.o, cc1.sparc dies and the cc hangs.
  2747.  
  2748.  
  2749. 247.
  2750. Date: Fri, 11 Aug 89 17:42:46 PDT
  2751. From: mendel (Mendel Rosenblum)
  2752. Subject: sun4 compiler problem
  2753.  
  2754. When compiling the fstat program for the sun4, gcc generates references to the 
  2755. undefined symbol ___fixunsdfsi.
  2756.  
  2757.  
  2758. 248.
  2759. Date: Sat, 12 Aug 89 10:07:11 PDT
  2760. From: ouster (John Ousterhout)
  2761. Message-Id: <8908121707.AA793393@sprite.Berkeley.EDU>
  2762. To: bugs
  2763. Subject: Bug in finger idle times?
  2764.  
  2765. I received the following output from finger at about 10:00 this morning:
  2766. ...
  2767. Notice that every rlogin-ed connection has an idle time of 3 minutes,
  2768. even though none of the supposed users is actually here working.
  2769. Furthermore, notice, for example, that Fred's idle time on Allspice
  2770. is 3 minutes, yet his idle time on Kvetching, the source of the
  2771. connection to Allspice, is many hours.  I checked /hosts/allspice/rlogin*,
  2772. and two of the files, rlogin1 and rlogin3, really do have last-access
  2773. times of 9:56 this morning.
  2774.  
  2775. I suspect that it is no coincidence that Oregano finished a reboot at
  2776. exactly the claimed last-access time of all these rlogin connections.
  2777. It appears to me that something related to recovery (device re-open?)
  2778. is updating the access times when it shouldn't.
  2779.  
  2780.  
  2781. 249.
  2782. Subject: sun4 bug: rlogind hung
  2783. Date: Sun, 13 Aug 89 18:37:14 PDT
  2784. From: Fred Douglis <douglis>
  2785.  
  2786. I hit ^C and started typing.  I then saw "Fs_Dispatch: stream ID 257
  2787. out of range" and my rlogin to allspice hung.
  2788.  
  2789.  
  2790. 250.
  2791. Date: Sat, 12 Aug 89 11:06:21 PDT
  2792. From: mendel (Mendel Rosenblum)
  2793. Subject: mouse problems on sun4
  2794.  
  2795. If you move the mouse on anise while doing a compile you get the message
  2796. "Warning: receiver overrun on mouse" printed in the syslog and the system
  2797. acts like you pushed down a mouse button. Many times this causes a uwm menu
  2798. to appear and then disappear.  
  2799.  
  2800.  
  2801. 251.
  2802. Date: Sat, 12 Aug 89 11:49:33 PDT
  2803. From: mendel (Mendel Rosenblum)
  2804. Message-Id: <8908121849.AA995596@sprite.Berkeley.EDU>
  2805. To: bugs
  2806. Subject: malloc on sun4 doesn't align memory correctly
  2807.  
  2808. Malloc on the sun4 returns objects only aligned to a four byte boundary. 
  2809. This means that mallocing double floating point variables will fail. For
  2810. example: 
  2811.  
  2812. struct foo {
  2813.     /* other stuff */
  2814.     double    max;
  2815.     /* more other stuff */
  2816. } *foo;
  2817.  
  2818. main() 
  2819. {
  2820.      foo = malloc(sizeof(struct foo));
  2821.      foo->max = 0.0;
  2822. }
  2823.  
  2824. seg faults everytime on Sprite. The large memory allocator appears to 
  2825. align stuff correctly.
  2826.  
  2827.  
  2828. 252.
  2829. From: rab (Robert A. Bruce)
  2830. Subject: allspice crashed
  2831. Date: Mon, 14 Aug 89 01:08:53 PDT
  2832.  
  2833. Allspice crashed while /user1 was being dumped.
  2834.  
  2835. Pmeg lists empty
  2836. Program received signal 16, Interrupt Trap
  2837.  
  2838. #0  panic (__builtin_va_alist=-167186280) (sysPrintf.c line 188)
  2839. #1  0xf608f128 in PMEGGet () (sun4.md/vmSun.c line 1329)
  2840. #2  0xf6090e18 in VmMach_PageValidate () (sun4.md/vmSun.c line 3109)
  2841. #3  0xf6087678 in VmPageValidateInt () (vmPage.c line 644)
  2842. #4  0xf6088990 in PreparePage () (vmPage.c line 1657)
  2843. #5  0xf608848c in Vm_PageIn () (vmPage.c line 1470)
  2844. #6  0xf600fa80 in testModuloLabel ()
  2845. ERROR: invalid read address 0xcac4
  2846.  
  2847. 253.
  2848. Date: Mon, 14 Aug 89 11:59:48 PDT
  2849. From: brent (Brent Welch)
  2850. Subject: Allspice crashed, level 15 interrupt
  2851.  
  2852. Allspice crashed again with a level 15 interrupt error.
  2853. Mendel says that this means that the cache hit a
  2854. protection error during a write-back.  This is an
  2855. asynchronous error so we couldn't really figure out
  2856. the exact details of the problem.  We were able
  2857. to continue allspice, and rlogind ended up in the
  2858. debugger because it had the affected page.
  2859.  
  2860.  
  2861. 254.
  2862. Date: Mon, 14 Aug 89 12:04:07 PDT
  2863. From: brent (Brent Welch)
  2864. Subject: mint erased "/sprite" again
  2865.  
  2866. When allspice crashed mint erased its prefix table
  2867. entry for "/sprite".  I rebooted mint with a new
  2868. kernel that supposedly guards against this, but
  2869. it didn't help.  I logged in as root and typed
  2870. "cd sprite" and it immediately printed out
  2871. "Broadcasting for server of /sprite", oops.
  2872. This seems repeatable, although I bet that allspice
  2873. (or oregano) has to be down at the time.  By the way,
  2874. the machines were down for only 1/2 hour today
  2875. (11:18 to 11:50) during all of this.  I'll wait until
  2876. "after hours" to reenact the problem with mint and /sprite.
  2877.  
  2878. 255.
  2879. Date: Mon, 14 Aug 89 15:32:19 PDT
  2880. From: shirriff (Ken Shirriff)
  2881. Subject: undefined net routines
  2882.  
  2883. There are a bunch of routines used in netCode.c and netRoute.c that
  2884. aren't defined: Net_InetChecksum, Net_InetChecksum2, Net_InetAddrToString,
  2885. and Net_EtherAddrToString.  I can't compile a kernel because these
  2886. aren't defined, so if anyone knows what the situation is with these,
  2887. please let me know.
  2888.  
  2889.  
  2890. 256.
  2891. Subject: bug: lpd broken
  2892. Date: Mon, 14 Aug 89 16:59:18 PDT
  2893. From: Fred Douglis <douglis>
  2894.  
  2895. i saw an error message the last time i booted paprika, and thyme now
  2896. has 3 lpds in the debugger.  someone install a broken version
  2897. recently?
  2898.  
  2899.  
  2900. 257.
  2901. Date: Tue, 15 Aug 89 11:31:16 PDT
  2902. From: shirriff (Ken Shirriff)
  2903. Subject: Evil black blob in tx
  2904.  
  2905. To repeatably create the indestructible black bar in tx that someone
  2906. reported earlier, click control-left button twice on an opening
  2907. parenthesis and then clear the window.
  2908.  
  2909.  
  2910. 258.
  2911. Date: Tue, 15 Aug 89 11:48:04 PDT
  2912. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  2913. Subject: mx problems
  2914.  
  2915. My mx window died with the following error: 
  2916.  
  2917. hijack<jhh 291> X Error: bad request code
  2918.   Request Major code 162 
  2919.   Request Minor code
  2920.   ResourceID 0xe0012
  2921.   Error Serial #1349
  2922.   Current Serial #1488
  2923.  
  2924. I don't know what I was doing at the time -- I think I was trying to
  2925. scroll up with a lot of stuff selected on the current screen.
  2926.  
  2927. Also, sometimes when mx starts up on a ds3100 I get just the frame of
  2928. the window with no contents.  It doesn't get filled in for at least 10
  2929. seconds, although if I click the mouse in the window it gets filled in
  2930. immediately.
  2931.  
  2932. 259.
  2933. Subject: kgdb bug
  2934. Date: Tue, 15 Aug 89 12:33:29 PDT
  2935. From: Fred Douglis <douglis>
  2936.  
  2937. after reading a new symbol table i was not able to call functions.  i
  2938. had to exit and restart gdb instead.
  2939.  
  2940.  
  2941. 260.
  2942. Date: Tue, 15 Aug 89 12:47:48 PDT
  2943. From: mgbaker (Mary Gray Baker)
  2944. Subject: compat error message
  2945.  
  2946. All of a sudden, commands in two windows hung.  One was an ls and the other
  2947. was a "msgs".  After about a minute, they both finally said
  2948.  
  2949. "compat:  Cannot decode user status value 0xffffffff"
  2950.  
  2951. The ls finished, but the messages kept printing it over and over, slowly.
  2952.  
  2953. My syslog window repeatedly said:
  2954.  
  2955. RpcDoCall: <open> RPC to oregano is hung
  2956. <open> RPC exit 0xffffffff
  2957.  
  2958.  
  2959. 261.
  2960. Date: Tue, 15 Aug 89 14:51:03 PDT
  2961. From: brent (Brent Welch)
  2962. Subject: Mint crash Aug 15
  2963.  
  2964. Mint crashed after recieveing the wrong reply messasge from Oregano.
  2965. It hit a bug error in FsSpriteOpen, the client-side RPC stub.
  2966. The return packet seemed garbled, and in fact it turned out to
  2967. be the reply packet for a stat RPC, not an open.  Oregano was
  2968. being sluggish in responding to RPCs (a sign of a network interface
  2969. that needs to be reset), and when mint retransmitted a request
  2970. Oregano responded with the incorrect reply.  Oregano seemed
  2971. to resend a stat reply with the message ID and command field
  2972. associated with an open RPC.  The bogus reply was followed
  2973. immediately by the transmission of the good open reply.
  2974. This means that the scatter gather mechanism in the interface
  2975. took the RPC header from one packet and the parameter block
  2976. from another (just a theory).
  2977. The trace went something like:
  2978.  
  2979. Open request retransmitted by mint (flags == Qp)
  2980. Open reply with parameter block from a stat
  2981. Open reply with good parameter block
  2982.  
  2983. >From kgdb you can dump the RPC trace with
  2984. (kdbg) print Rpc_PrintTrace(50)
  2985.  
  2986. >From the console keyboard you can reset a Sun3's network
  2987. interface with L1-n.  Before this problem I noticed
  2988. several complaints from the nfsmount processes on Oregano
  2989. about RPC timeouts to the NFS server.  Anyway, there
  2990. are a number of possible things to do, beginning with nothing.
  2991. Beyond that, sanity checks can be added to all RPC stubs,
  2992. which is probably a good idea, although it will add overhead.
  2993. Finally, we could periodically reset the Intel ethernet
  2994. interfaces, which apparently have a reputation for being
  2995. flakey.  Currently the RPC system will do the reset when
  2996. it recieves apparently garbled packets, but that didn't
  2997. kick in this case.
  2998.     brent
  2999. ps.  This isn't the first time Oregano's ethernet interface
  3000. has acted up and returned bogus packets to clients.
  3001.  
  3002.  
  3003. 262.
  3004. Date: Tue, 15 Aug 89 15:30:22 PDT
  3005. From: shirriff (Ken Shirriff)
  3006. Subject: more on ds3100
  3007.  
  3008. If I do "more" on a file, then do a search with "/" for something that
  3009. isn't in the file, I get "Pattern not found" and then "Segmentation
  3010. violation".
  3011.  
  3012.  
  3013. 263.
  3014. Subject: more unrepeatable ds3100 errors
  3015. Date: Tue, 15 Aug 89 15:45:36 PDT
  3016. From: Fred Douglis <douglis>
  3017.  
  3018. for the record:
  3019.  
  3020. cd /a/attcmds/more; pmake newtm
  3021.  
  3022.     resulted in the complaint "userMap: undefined variable" and no
  3023.     md.mk file being created.  A second mkmf worked fine.
  3024.  
  3025. cd kernel/fs; rm ds3100.md/*.o; pmake
  3026.  
  3027.     done this morning to 'show off' to bks.  all i did was show
  3028.     off how sprite is flaky, because one of the compilations
  3029.     returned with exit status 1 even though no error messages were
  3030.     produced and a second make worked just fine.
  3031.  
  3032.  
  3033. 264.
  3034. Date: Tue, 15 Aug 89 19:31:29 PDT
  3035. From: mendel (Mendel Rosenblum)
  3036. Subject: bug in sun3/sun4 timer code.
  3037.  
  3038. The Sprite timer code on the sun3 and sun4 doesn't handle the case of the
  3039. chip running backwards.  This causes the gettimeofday() on the sun3 and sun4
  3040. to sometime run backwards.  The chip seems do two things wrong. 
  3041.  
  3042. 1)  The hundredths registers sometimes reads out values greater than 99. I
  3043.     have seen values as great as 127 come out. This causes the time 
  3044.     returned to be unnormalized because it has 1,000,000 microseconds. This
  3045.     seems pretty easy to dectect and fix. 
  3046.  
  3047. 2) Other times the hundredths appears to jump forward and settle back again.
  3048.    I've seen the hundredths register go (31, 62, 32, 33) on successive
  3049.    reads. This seems harder to dectect and fix.  It appears that one
  3050.    can not trust the timer chip to keep track on time of day on a find
  3051.    grain.
  3052.  
  3053. Any suggestions on how to get around this problem? The easiest fix I 
  3054. can think of is to just prohibit time from ever go backwards.
  3055.  
  3056.  
  3057. 265.
  3058. From: rab (Robert A. Bruce)
  3059. Subject: trashed file
  3060. Date: Tue, 15 Aug 89 20:11:56 PDT
  3061.  
  3062. /sprite/src/daemons/ipServer/RCS/stat.h,v is trashed.  I moved
  3063. it to /sprite/trashed.  I will try and restore the file from
  3064. a dump tape.
  3065.  
  3066.  
  3067.  
  3068. 266.
  3069. Date: Wed, 16 Aug 89 17:24:19 PDT
  3070. From: shirriff (Ken Shirriff)
  3071. Subject: ds3100 man problem
  3072.  
  3073. Running "man command" where command.man is a new man page that hasn't been
  3074. nroffed yet yields "sh: nroff: not found".
  3075.  
  3076.  
  3077. 267.
  3078. Date: Wed, 16 Aug 89 17:43:38 PDT
  3079. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3080. Subject: mx selection problem
  3081.  
  3082. Here is the scenerio.
  3083.  
  3084. I rlogin to a sun3 from a ds3100.
  3085. I run mx on the sun3 such that it is displayed on my ds3100.
  3086. I select something not in the mx window.
  3087. I try to paste it into the mx window.
  3088.  
  3089. The problem:
  3090.  
  3091. After a long pause I get:
  3092. Tried to use selection, but nothing's selected.
  3093.  
  3094. I can now have two selections on my screen -- on in the mx window and one
  3095. in any other window.  None of the windows will recognize the "enemy"
  3096. selection.
  3097.  
  3098.  
  3099. 268.
  3100. Date: Wed, 16 Aug 89 17:57:36 PDT
  3101. From: shirriff (Ken Shirriff)
  3102. Subject: ds3100 dbx dies
  3103.  
  3104. dbx bombs out on me and leaves me with
  3105. dbx: internal error: pwait: pid 591408 not found
  3106. after I set a bunch of breakpoints.
  3107. The sequence of events is in ~shirriff/dbxbug.
  3108.  
  3109.  
  3110. 269.
  3111. From: rab (Robert A. Bruce)
  3112. Subject: ipServer on allspice
  3113. Date: Wed, 16 Aug 89 23:09:56 PDT
  3114.  
  3115. Allspice's ipServer crashed.  I tried to debug it, but it
  3116. died before I could get a stack trace.  There was a suspicious
  3117. message on the console:
  3118.  
  3119. Intel: spurious interrupt (2)
  3120.  
  3121. but I don't know if it is related.
  3122. I put a copy of `restartservers' in /hosts/allspice.
  3123.  
  3124.  
  3125. 270.
  3126. From: rab (Robert A. Bruce)
  3127. Message-Id: <8908170626.AA855356@sprite.Berkeley.EDU>
  3128. To: bugs
  3129. Cc: rab
  3130. Subject: rlogind
  3131. Date: Wed, 16 Aug 89 23:26:05 PDT
  3132.  
  3133. I opened an allspice window, set the termcap and then typed `clear'.
  3134. I got the following message:
  3135.  
  3136. PdevServiceRequest, bad request magic # 0x31c1113
  3137.  
  3138. The window froze up and rlogind was in the debugger.  I opened another
  3139. window, and tried the same thing.  It didn't work, so I typed `exit'.
  3140. The window froze and a second rlogind was in the debugger.
  3141.  
  3142.  
  3143. 271.
  3144. Subject: DEFTARGET bug
  3145. Date: Wed, 16 Aug 89 23:29:46 PDT
  3146. From: Fred Douglis <douglis>
  3147.  
  3148. this has been brought up before: TM defaults to sun3 if not set
  3149. explicitly.  I have "TM=$MACHINE" in my PMAKE environment variable and
  3150. it's worked well for me.  John H. doesn't and he was not able to do
  3151. mkmf using the modified tm.mk because TM was set explicitly to sun3
  3152. even though the target was really "dependall" and TM didn't matter.  
  3153.  
  3154. I'd like to change all references of the form
  3155.  
  3156.     TM ?= @(DEFTARGET)
  3157.  
  3158. to
  3159.     TM ?= $(MACHINE)
  3160.  
  3161. any problems with this?
  3162.  
  3163.  
  3164. 272.
  3165. Date: Thu, 17 Aug 89 00:22:15 PDT
  3166. From: shirriff (Ken Shirriff)
  3167. Message-Id: <8908170722.AA984622@sprite.Berkeley.EDU>
  3168. To: bugs
  3169. Subject: ds3100 nroff bug
  3170.  
  3171. The problem with nroff occurs in the environment saving function caseev.
  3172. A bunch of variables are defined in ni.c:
  3173. int block = 0;
  3174. int ics;
  3175. int icf; ... etc ...
  3176. int *hyptr[NHYP] = {0}; ... etc ...
  3177.  
  3178. Then caseev does read(.., (char *)&block, LENGTH_OF_EVERYTHING), which
  3179. is supposed to read in all these variables in one fell swoop.  However,
  3180. this assumes the variables are stored consecutively, which they are
  3181. on the sun.  However, on the ds3100, the initialized arrays are put
  3182. before everything else, so the reads and writes are modifying the
  3183. wrong variables.
  3184.  
  3185.  
  3186. 273.
  3187. Date: Thu, 17 Aug 89 08:30:54 PDT
  3188. From: ouster (John Ousterhout)
  3189. Subject: Re: rlogind
  3190.  
  3191. The rlogind bug Bob reported sounds just like a bug Mike found in
  3192. the ipServer, where the kernel was reporting more data in the pdev
  3193. request buffer than was really there, causing the server process
  3194. to try to handle an extra request.  The ipServer also died with a
  3195. bad magic number.  Since Brent was away on vacation, Mike just
  3196. patched the ipServer to ignore bad requests.  I think that the
  3197. problem is pretty reproducible on ds3100's:  just take the patch
  3198. out of ipServer and try to run X.
  3199.  
  3200.  
  3201. 274.
  3202. Date: Thu, 17 Aug 89 09:12:58 PDT
  3203. From: ouster (John Ousterhout)
  3204. Subject: Bad News on Dinner
  3205.  
  3206. It appears that Mint was inaccessible through the network all yesterday
  3207. afternoon and night.  Martha Zimet came by late yesterday afternoon
  3208. to say she hadn't been able to login to Mint all afternoon.  I was able
  3209. to rlogin from mace, so I didn't look any further.  However, this morning
  3210. she was still unable to login.  I went upstairs and restarted all Mint's
  3211. daemons, which fixed the problem.  Portmap had been in the debugger.  In
  3212. my haste to get things going for Martha I just killed it.  In retrospect
  3213. I should have taken a look with the debugger.... sorry about that.  What
  3214. is portmap, anyway?  Mint was refusing rlogin's and rsh's, but honoring
  3215. pings and rcp's.
  3216.  
  3217. There were no network daemons running on Allspice this morning either.
  3218. I restarted them.
  3219.  
  3220. By the way, mail apparently wasn't getting through yesterday either:
  3221. once I restarted the daemons, a flood of day-old internet mail arrived for
  3222. me.
  3223.  
  3224.  
  3225. 275.
  3226. Date: Thu, 17 Aug 89 09:39:40 PDT
  3227. From: ouster (John Ousterhout)
  3228. Subject: /tmp disappeared again
  3229.  
  3230. After Oregano's crash and reboot this morning, /tmp was gone again.
  3231. I added back the symbolic link to /c/tmp.  I'm beginning to suspect
  3232. that Oregano's boot scripts are responsible for this.
  3233.  
  3234.  
  3235. 276.
  3236. Date: Thu, 17 Aug 89 09:44:27 PDT
  3237. From: mendel (Mendel Rosenblum)
  3238. Subject: someone broken mkmf on ds3100
  3239.  
  3240. When I try to mkmf a directory on a ds3100 I get the message 
  3241. "/sprite/lib/pmake/tm.mk", line 91: Undefined variable "$("
  3242. Fatal errors encountered -- cannot continue
  3243.  
  3244. Sure enought, line 91 on of tm.mk is
  3245.  
  3246. syntax_error: $(
  3247.  
  3248. I have commented this line out so I can do mkmf.
  3249.  
  3250.  
  3251. 277.
  3252. Date: Thu, 17 Aug 89 10:01:19 PDT
  3253. From: mendel (Mendel Rosenblum)
  3254. Subject: oregano crash
  3255.  
  3256. Oregano crasshed this morning with a bus error in FsWriteBackDesc(). It 
  3257. looked like FsDomainFetch() must of returned a bad domain pointer.   
  3258.  
  3259.  
  3260. 278.
  3261. Date: Thu, 17 Aug 89 11:39:50 PDT
  3262. From: ouster (John Ousterhout)
  3263. Subject: Pmake lost characters
  3264.  
  3265. I just did a "pmake install TM=sun3" in kernel/dev, and at the very
  3266. end of the pmake the following output occurred:
  3267.  
  3268. ...
  3269. devTty.c:
  3270. mv llib-ldev.ln sun3.md/llibrm -f sun3.md/llib-ldev.ln
  3271. usage: mv [-if] file1 file2 or mv [-if] file/directory ... directory
  3272. *** Error code 1
  3273. pmake: 1 error
  3274.  
  3275. I reran the pmake, and it then worked OK, producing the following output:
  3276.  
  3277. ...
  3278. devTty.c:
  3279. mv llib-ldev.ln sun3.md/llib-ldev.ln
  3280. --- ../Lint/sun3.md/dev.ln ---
  3281. rm -f ../Lint/sun3.md/dev.ln
  3282. /sprite/cmds.sun3/cp sun3.md/llib-ldev.ln ../Lint/sun3.md/dev.ln
  3283.  
  3284. It looks like command lines from two different targets may have gotten
  3285. scrambled together.  As I remember, this is similar to the problems
  3286. people have been having on the DS3100s, but this particular example
  3287. was on a Sun-3.
  3288.  
  3289.  
  3290. 279.
  3291. Date: Thu, 17 Aug 89 11:40:56 PDT
  3292. From: brent (Brent Welch)
  3293. Subject: Re: rlogind
  3294.  
  3295. There were several rlogind in the DEBUG state.  Each one seemed
  3296. to die in a different spot.  gdb also died after looking around
  3297. a little bit.  I think rlogind memory image got trashed, and
  3298. I suspect the cache-write back problem that allspice had
  3299. a couple days ago.  We continued allspice after a cache write
  3300. back protection error, and rlogind ended up in the debugger at
  3301. that time.  Perhaps the cached page table for rlogind has a
  3302. bogus value, so any rlogind will eventually die?  There are
  3303. probably ways to flush segments and check this, but I don't
  3304. remember them.
  3305.  
  3306.  
  3307. 280.
  3308. Date: Thu, 17 Aug 89 12:15:11 PDT
  3309. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3310. Subject: merge, rcsmerge
  3311.  
  3312. Neither of these will work on a ds3100 because they depend on 
  3313. /sprite/lib/$TM.md/diff3.  This is one of those cases where unix has
  3314. a shell script front end to the real program. Our diff3 is from GNU and
  3315. doesn't have the back end.  Merge uses the backend directly so we're
  3316. hosed.  I don't see why merge can't go through the front end -- I'll
  3317. look into it.
  3318.  
  3319.  
  3320. 281.
  3321. Date: Thu, 17 Aug 89 14:10:39 PDT
  3322. From: pmchen (Peter M. Chen)
  3323. Subject: using news to send mail
  3324.  
  3325. Doesn't change the machine name to sprite.  I guess it doesn't use the
  3326. same sendmail program.  E.g.
  3327.  
  3328. From: pmchen@mustard.Berkeley.EDU (Peter M. Chen)
  3329.  
  3330.  
  3331. 282.
  3332. Date: Thu, 17 Aug 89 14:49:47 PDT
  3333. From: pmchen (Peter M. Chen)
  3334. Message-Id: <8908172149.AA339000@sprite.Berkeley.EDU>
  3335. To: bugs
  3336. Subject: program running when sun4 crashed
  3337.  
  3338. I was on raid, running a program which started up a lot of processes talking
  3339. to one disk, and it crashed (see Rich Drewes's soon to be ensuing message,
  3340. or previous message, depending on who mails first).
  3341.  
  3342. I was running the following program:
  3343. mult4 /dev/rsvj00 600000 type/1 size/1 0 20 20 0 0 10
  3344.  
  3345. I've run the same program other times without crashing.  One stress on the
  3346. system might be the number of processes (20) forked off.
  3347.  
  3348. We'll try to repeat the crash...more later
  3349.  
  3350.  
  3351. 283.
  3352. Date: Thu, 17 Aug 89 14:57:58 PDT
  3353. From: drewes (Richard Drewes)
  3354. Subject: Sun 4 bug
  3355.  
  3356. hi hi hi,
  3357.  
  3358. raid, a Sun 4 gets occasional hard crashes that necessitate a power cycle
  3359. (watchdog reset results in a permanently blank screen).  The console error
  3360. message is:
  3361.  
  3362. MachPageFault:  Bus error in user proc 31e12, PC = 9424, addr = 4 BR Reg 80
  3363. Fatal Error:  Mem_Free:  storage block already free
  3364. Entering debugger with a Interrupt Trap (16) exception at PC 0xf607e6f0
  3365.  
  3366. Peter Chen is sending you the code that generated the error.
  3367.  
  3368. Another, possibly related error I have encountered is not quite as fatal:  it
  3369. just prints a segmentation fault sometimes when I manipulate large blocks
  3370. of malloced data (like 100KB).  Thanks for your attention, O Sprite God.
  3371.  
  3372.  
  3373. 284.
  3374. Date: Thu, 17 Aug 89 19:47:03 PDT
  3375. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3376. Subject: problem with sun4.md/machConst.h
  3377.  
  3378.  
  3379. The sun4 version of machConst.h redefines a bunch of sys variables
  3380. (like SYS_NUM_SYSCALLS).  This isn't very convenient for adding new
  3381. system calls.
  3382.  
  3383.  
  3384. 285.
  3385. Subject: rcs check-out error
  3386. Date: Thu, 17 Aug 89 22:42:22 PDT
  3387. From: Fred Douglis <douglis>
  3388.  
  3389. i tried to check  out mach/ds3100.md/machAsm.s.  I got:
  3390.  
  3391.     co -l machAsm.s
  3392.     RCS/machAsm.s,v  -->  machAsm.s
  3393.     revision 1.5 (locked)
  3394.     co error: Can't check-out new copy of machAsm.s.  Old copy saved.
  3395.  
  3396. Since i was replacing the file anyway, i moved the RCS file to
  3397. machAsm.s.bak,v and then just recreated machAsm.s with the copy mike
  3398. sent me.  so much for source control...
  3399.  
  3400.  
  3401. 286.
  3402. Date: Fri, 18 Aug 89 09:25:52 PDT
  3403. From: mendel (Mendel Rosenblum)
  3404. Message-Id: <8908181625.AA332066@sprite.Berkeley.EDU>
  3405. To: bugs
  3406. Subject: mkmf defaults problem
  3407.  
  3408. It use to be that when you typed mkmf and had only one ".md" directory that
  3409. machine type would be the default.  Someone has changes this. Now it
  3410. sets TM to default to $MACHINE.  When I type pmake on the sun3 with only
  3411. a sun4.md directory I get the following output:
  3412.  
  3413. murder% pmake
  3414. --- sun3.md/fs.new.o ---
  3415. rm -f sun3.md/fs.new.o
  3416. ld -r   -o sun3.md/fs.new.o
  3417. ld: no input files
  3418. *** Error code 1
  3419. pmake: 1 error
  3420.  
  3421. I like the way it was before better.
  3422.  
  3423.  
  3424. 287.
  3425. Subject: ds3100 crash starting recovery
  3426. Date: Fri, 18 Aug 89 14:53:48 PDT
  3427. From: Fred Douglis <douglis>
  3428.  
  3429. the moment kvetching enabled RPCs it died by jumping to pc 0.  This
  3430. was after printing that it was starting recovery with mint.  Looks
  3431. like it got something bad from mint that it didn't protect itself
  3432. against when going through its jump tables.
  3433.  
  3434.  
  3435. 288.
  3436. Subject: Re: ds3100 crash starting recovery 
  3437. Date: Fri, 18 Aug 89 15:01:02 PDT
  3438. From: Fred Douglis <douglis>
  3439.  
  3440. Actually, a more precise description of the bug, now that i realize
  3441. what happened.  I had a "cat /hosts/kvetching/dev/syslog" running on
  3442. mint in order to tweak recovery when kvetching was down.  The crash
  3443. was repeatable when the cat was running, and kvetching booted just
  3444. fine once i killed the cat process.
  3445.  
  3446.  
  3447. 289.
  3448. Date: Fri, 18 Aug 89 15:43:55 PDT
  3449. From: ouster (John Ousterhout)
  3450. Subject: Bug:  processes not dying
  3451.  
  3452. I've been having a lot of trouble lately with processes not dying,
  3453. either when I type "kill" to gdb, or when gdb exits.  About half
  3454. the time gdb just hangs until I type "killdebug" in another window
  3455. (thank-you Ken for this convenience).  In the past the processes
  3456. have occasionally not died, but it's never hung gdb like this before.
  3457.  
  3458.  
  3459. 290.
  3460. Date: Sat, 19 Aug 89 10:24:58 PDT
  3461. From: ouster (John Ousterhout)
  3462. Subject: Piracy in debugger again
  3463.  
  3464. I'm beginning to wonder if maybe something is wrong with Piracy, since
  3465. it ends up in the debugger so much more often than other DS3100's, even
  3466. though I'm not actually using it.  Right now it's in the debugger with
  3467. the message
  3468. "Bad kernel TLB Fault
  3469. Syncing disks ...
  3470. Entering debugger with a TLB LD miss exception at PC 0x8"
  3471.  
  3472.  
  3473. 291.
  3474. Date: Sat, 19 Aug 89 10:53:21 PDT
  3475. From: gibson (Garth Gibson)
  3476. Subject: MachTrap in tx on default kernel (Brent sun3) (8 Jul 89 18:49:45)
  3477.  
  3478. I was running vi in a tx window this morning (on the oldest kernel
  3479. I can find - the one that generally runs forever) and the tx process
  3480. took a bus error:
  3481. MachTrap: Bus error in user proc 4051f, PC = dad4, addr = 2a2f0a84 BR Reg 0
  3482. garth
  3483.  
  3484.  
  3485. 292.
  3486. Date: Sun, 20 Aug 89 10:39:14 PDT
  3487. From: brent (Brent Welch)
  3488. Subject: X on ds3100
  3489.  
  3490. I tried to use cardamom today, Sunday.  After finally finding
  3491. /ultrix/cmds/Xmfb I invoked it via xinit.
  3492.  
  3493. xinit tx -D -title Console -e ~/bin/xstart sprite:0 -- /ultrix/cmds/Xmfb
  3494.  
  3495. The backgroud pattern appeared for about two seconds and then the
  3496. screen went blank.  I am currently logged into cardamom and see
  3497. no trace of xinit or Xmfb, but I can'T use the screen.  Is this
  3498. a case of not being able to restart X because of an interaction
  3499. with the ipServer? 
  3500. By the way, what is the one true way of starting X on
  3501. a ds3100?  Why isn't it easy to figure out?  Also, the xinit
  3502. I started was probably /X/cmds.ds3100/xinit, not the one
  3503. in /ultrix/cmds.
  3504.  
  3505.  
  3506. 293.
  3507. Date: Mon, 21 Aug 89 10:09:37 PDT
  3508. From: mendel (Mendel Rosenblum)
  3509. Subject: loadavg error messages
  3510.  
  3511. I've been getting messages of the form:
  3512.  
  3513. <27>Aug 21 10:07:20 loadavg[11118]: Error evicting foreign processes: an argumen
  3514. t to a call was invalid
  3515.  
  3516. on murder.  The kernel is:
  3517. SPRITE VERSION 1.0 (JohnH sun3) (11 Aug 89 17:57:30)
  3518.  
  3519.  
  3520. 294.
  3521. Date: Mon, 21 Aug 89 10:10:25 PDT
  3522. From: ouster (John Ousterhout)
  3523. Subject: Bug in mx regexp search code
  3524.  
  3525. If you select the last character in a file, enter a garbage string
  3526. into the search window (one that won't match anything) and type ^B,
  3527. the regexp code panics with "Pointer error!".
  3528.  
  3529.  
  3530. 295.
  3531. Subject: trashed file
  3532. Date: Mon, 21 Aug 89 10:33:02 PDT
  3533. From: Fred Douglis <douglis>
  3534.  
  3535. /user1/douglis/Mail/drafts/1 should have contained a Mail draft that I
  3536. was trying to save last night when allspice must have crashed.
  3537. Instead, it contained something that looks like part of an mx log for
  3538. a file called "versions".  I moved it to /user1/trashed/MH-mxlog.
  3539.  
  3540.  
  3541. 296.
  3542. Date: Mon, 21 Aug 89 10:55:31 PDT
  3543. From: pmchen (Peter M. Chen)
  3544. Subject: lprm dies
  3545.  
  3546. The printer in our office (508-5), pulla, was not printing, so I tried
  3547. to lprm a job.  lprm -Plw547 (nobody has changed the name of the printer
  3548. from 547 to 508-5) <jobnumber> returned:
  3549. *** compat: Invalid message # for Gen module: status = 0x4e22
  3550. *** compat: Invalid message # for Gen module: status = 0x4e22
  3551. socket: Can't find my hostname
  3552.  
  3553. Debug
  3554.  
  3555. This might be because envy is currently down and is returning a weird
  3556. error message.
  3557.  
  3558.  
  3559. 297.
  3560. Subject: tx bug: large selection hung window
  3561. Date: Mon, 21 Aug 89 11:44:43 PDT
  3562. From: Fred Douglis <douglis>
  3563.  
  3564. I tried using ^V to stuff a very large selection, and my tx hung.
  3565. It's process 70216 on kvetching if someone wants to look at it (I
  3566. threw it into the debugger).
  3567.  
  3568.  
  3569. 298.
  3570. Date: Mon, 21 Aug 89 13:15:01 PDT
  3571. From: ouster (John Ousterhout)
  3572. Subject: Bug:  xinit needs to be tuned for Sprite
  3573.  
  3574.     From stolcke@icsib8.Berkeley.EDU Mon Aug 21 11:59:04 1989
  3575.     Received: from icsib.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  3576.         id AA08262; Mon, 21 Aug 89 11:59:02 PDT
  3577.     Received: from icsib8. (icsib8.Berkeley.EDU) by icsib.Berkeley.EDU (4.0/
  3578. SMI-4.0)
  3579.         id AA00269; Mon, 21 Aug 89 11:59:13 PDT
  3580.     Received: by icsib8. (4.0/SMI-4.0)
  3581.         id AA15809; Mon, 21 Aug 89 11:59:08 PDT
  3582.     From: stolcke@icsib8.Berkeley.EDU (Andreas Stolcke)
  3583.     Message-Id: <8908211859.AA15809@icsib8.>
  3584.     To: ouster@sprite.Berkeley.EDU (John Ousterhout)
  3585.     Subject: Re: Anyone use these things? 
  3586.     In-Reply-To: Your message of Fri, 18 Aug 89 15:21:57 -0700.
  3587.                  <8908182221.AA203572@sprite.Berkeley.EDU> 
  3588.     Date: Mon, 21 Aug 89 11:59:06 PDT
  3589.  
  3590.  
  3591.     Yes, xinit it supposed to give a basic X startup. It should also do so
  3592.     when called without any arguments. I think this currently isn't
  3593.     the case on Sprite for to reasons:
  3594.  
  3595.     xinit expects 'X' to be a link to the local X server binary, which is
  3596.     then used as the default server. So in Sprite, 'X' should  probably
  3597.     point to 'Xsprite'.
  3598.  
  3599.     xinit invokes 'xterm' as the default terminal emulator client. But since
  3600.     a bunch of options go along with this a link from 'xterm' to 'tx' won't 
  3601. do.
  3602.     Off hand I can think of at least three ways of fixing this: either make
  3603.     the option handling in tx a superset of xterm's, or change the default
  3604.     command line compiled into xinit, or write up a shell script that (sort
  3605.     of) emulates xterms options calling tx.
  3606.  
  3607.  
  3608. 299.
  3609. Subject: access times
  3610. Date: Mon, 21 Aug 89 13:49:51 PDT
  3611. From: Fred Douglis <douglis>
  3612.  
  3613. looks like access times for binaries are updated only sporadically.
  3614. if i do an ls, and then "ls -lu /bin/ls" it looks like it is getting
  3615. updated.  but if i do some other things and then ls -lu on them, they
  3616. aren't updated.  (a particular example is
  3617. /sprite/cmds.ds3100/mh/scan).  
  3618.  
  3619.  
  3620. 300.
  3621. Date: Mon, 21 Aug 89 14:32:47 PDT
  3622. From: ouster (John Ousterhout)
  3623. Subject: Can't compile for DS3100
  3624.  
  3625. I've been trying to recompile Mx and Tx for the ds3100, but
  3626. I keep getting messages like "ld: Can't locate file for: -ltcl_g with -B1.31".
  3627. Does anyone know what this error message means?  The file seems to
  3628. exist in /sprite/lib/ds3100.md/libtcl.a.
  3629.  
  3630.  
  3631. 301.
  3632. Date: Mon, 21 Aug 89 15:14:33 PDT
  3633. From: brent (Brent Welch)
  3634. Subject: Re: access times of binaries
  3635.  
  3636. This is the situation that caused some confusion
  3637. on Fred's part.  If a program is being executed then
  3638. the system always returns "now" as the current access
  3639. time.  This is done to avoid the overhead of contacting
  3640. all the hosts that might be executing the program.
  3641. However, this access time is not propogated back to
  3642. the file descriptor (bug #1).  So, if you use the ls
  3643. program to look at the access time of the ls program,
  3644. you'll always get "now".  If you use another program,
  3645. stat for example, you'll get the access time in the file
  3646. descriptor.  A related bug is that (I think) demand loading
  3647. a file from a remote server might take a path that doesn't
  3648. update the access time on the binary file.  Specifically,
  3649. FsCacheRead updates the access time, but FsCacheBlockRead
  3650. does not.  Normally FsCacheRead is called on the client
  3651. and FsCacheBlockRead is called on the server in response
  3652. to requests for whole blocks.  For non-VM accesses FsCacheRead
  3653. updates the access time at the client cache, and this eventually
  3654. gets back to the file server.  However, VM uses Fs_PageRead
  3655. and the object-specific BlockRead routines, which do not
  3656. properly set the access time on the client.
  3657.  
  3658.  
  3659. 302.
  3660. Date: Mon, 21 Aug 89 17:43:50 PDT
  3661. From: mgbaker (Mary Gray Baker)
  3662. Subject: L1 keys on sun4
  3663.  
  3664. A while back there were some complaints about the L1 keys not working at times
  3665. on the sun4.  It turns out that some people's mainHook.c files (not mine,
  3666. of course, or I would have experienced the same problem!) set main_DoDumpInit
  3667. to FALSE.  If it is false, the routines for the different L1 keys are not
  3668. initialized.  I don't know why this is a variable, or why anyone would want
  3669. to set it to false, but this explains why various people's sun4 kernels had
  3670. this trouble.
  3671.  
  3672. Another complaint is that L1A won't work sometimes.  If the machine has wedged
  3673. itself at a time when interrupts were off, then nothing from the keyboard
  3674. will work.  At that point, you need to watchdog reset it or the equivalent.
  3675. If a machine does this, this is a bug, since it should not have wedged itself,
  3676. naturally.  This can happen easily if you are debugging a sun4 kernel and the
  3677. debugger protocol messes up and it starts timing out.  Fixing the debugger will
  3678. help, and figuring out a way to re-enable keyboard interrupts in the debugger
  3679. will also help.  Both should happen eventually.
  3680.  
  3681.  
  3682. 303.
  3683. Date: Mon, 21 Aug 89 21:38:04 PDT
  3684. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3685. Subject: bug in mx
  3686.  
  3687. I'm running the new mx (Aug 21 14:34) on a ds3100 running kernel 1.002
  3688. and every time I select something and type ^B I get the message
  3689. "Pointer error!" in the shell that started the mx, and the mx goes into
  3690. the debugger. 
  3691.  
  3692.  
  3693. 304.
  3694. Date: Tue, 22 Aug 89 10:17:22 PDT
  3695. From: mendel (Mendel Rosenblum)
  3696. Subject: Re: bug in mx
  3697.  
  3698. > I'm running the new mx (Aug 21 14:34) on a ds3100 running kernel 1.002
  3699. > and every time I select something and type ^B I get the message
  3700. > "Pointer error!" in the shell that started the mx, and the mx goes into
  3701. > the debugger. 
  3702.  
  3703. Tx does the same thing when you do a meta-b. 
  3704.  
  3705.  
  3706. 305.
  3707. Date: Tue, 22 Aug 89 12:21:32 PDT
  3708. From: gibson (Garth Gibson)
  3709. Message-Id: <8908221921.AA267821@sprite.Berkeley.EDU>
  3710. To: bugs
  3711. Subject: ds3100: spritemon
  3712.  
  3713. spritemon with no args works but:
  3714. spritemon -ufv%iH 35
  3715. Bad user TLB fault in process 31619: pc=401904 addr=4
  3716.  
  3717. Segmentation violation
  3718.  
  3719.  
  3720. 306.
  3721. Subject: bug: ds3100 tx garbage pointer
  3722. Date: Tue, 22 Aug 89 12:45:15 PDT
  3723. From: Fred Douglis <douglis>
  3724.  
  3725. I was trying to select something and hit the debugger with the following
  3726. stack.  mxwPtr is garbage.
  3727.  
  3728. >  0 CharToLine(mxwPtr = 0x205d676e, position = (...)) ["mxDisplay.c":888, 0x417
  3729. 1d8]
  3730.    1 MxRedisplayRange(mxwPtr = 0x205d676e, first = (...), last = (...)) ["mxDisp
  3731. lay.c":1270, 0x417ebc]
  3732.    2 MxHighlightSetRange(hlPtr = 0x1002eb20, first = (...), last = (...)) ["mxHi
  3733. ghlight.c":234, 0x414b5c]
  3734.    3 MxMarkParens(fileInfoPtr = 0x1001b640, position = (...)) ["mxCmdUtils.c":58
  3735. 6, 0x413014]
  3736.    4 .block79 ["mxCmdUtils.c":778, 0x4135d0]
  3737.    5 MxMouseProc(mxwPtr = 0x10025168, eventPtr = 0x7fdff818) ["mxCmdUtils.c":778
  3738. , 0x4135d0]
  3739.    6 Sx_HandleEvent(eventPtr = 0x7fdff818) ["sxDispatch.c":442, 0x42032c]
  3740.    7 Tx_WindowEventProc(display = 0x10017bb8) ["txWindow.c":1240, 0x403e74]
  3741.    8 .block249 ["fsDispatch.c":328, 0x44bf40]
  3742.    9 Fs_Dispatch() ["fsDispatch.c":328, 0x44bf40]
  3743.   10 .block1 ["tx.c":135, 0x4004cc]
  3744.   11 main(argc = 9, argv = 0x7fdffa14) ["tx.c":135, 0x4004cc]
  3745.  
  3746.  
  3747. 307.
  3748. Date: Tue, 22 Aug 89 12:47:18 PDT
  3749. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3750. Subject: bug in mv
  3751.  
  3752. There is a bug moving a file to a symbolic link to itself. For example,
  3753. I created the file /tmp/foo, and the symbolic link /sprite/tmp/foo ->
  3754. /tmp/foo.  I then did "mv /tmp/foo /sprite/tmp/foo". I get the
  3755. message "mv: /tmp/foo: rename: invalid argument", and worst of all, the
  3756. file /tmp/foo disappears.  
  3757.  
  3758.  
  3759. 308.
  3760. Date: Tue, 22 Aug 89 13:06:39 PDT
  3761. From: gibson (Garth Gibson)
  3762. Subject: ds3100
  3763.  
  3764. from vi i issued ":e ~/bin/xstart"
  3765. and it failled with message "/sprite/cmds.sun4/csh" exec format errorNo match
  3766.  
  3767.  
  3768. 309.
  3769. Date: Tue, 22 Aug 89 14:06:41 PDT
  3770. From: gibson (Garth Gibson)
  3771. Message-Id: <8908222106.AA66877@sprite.Berkeley.EDU>
  3772. To: bugs
  3773. Subject: restarting x11 on the ds3100
  3774.  
  3775. doesn't work - it goes into a loop waiting for server to start.
  3776. although once a user is established this is not a problem, every
  3777. newuser is going to die trying to get his x environment right
  3778.  
  3779.  
  3780. 310.
  3781. Subject: Re: ds3100: spritemon 
  3782. Date: Tue, 22 Aug 89 14:10:49 PDT
  3783. From: Fred Douglis <douglis>
  3784.  
  3785. I went up to Garth's office to see why spritemon died for him but not
  3786. for me.  It was dereferencing a null pointer to font info because the
  3787. font it tried to open didn't exist.  It should complain that it can't
  3788. open the font.  Looks like this is actually an X toolkit problem, so I
  3789. don't know how it would be fixed or by whom....
  3790.  
  3791.  
  3792. 311.
  3793. Subject: nfsmount bug
  3794. Date: Tue, 22 Aug 89 14:28:37 PDT
  3795. From: Fred Douglis <douglis>
  3796.  
  3797. oregano's mount of /chip went into the debugger.  the gcore file is in
  3798. /tmp/nfsmount.core.22628 if anyone wants it.  not only did operations
  3799. on chip hang, but garth said that his Mail process got hung reading
  3800. mail on sprite. 
  3801.  
  3802.  
  3803. 312.
  3804. Date: Tue, 22 Aug 89 14:52:16 PDT
  3805. From: gibson (Garth Gibson)
  3806. Subject: ds3100: X meta key develops a "lock" mode
  3807.  
  3808. I don't know how, but I got into a state on the ds3100 in X
  3809. where meta Press and Release events alternated each time the
  3810. key was pressed (but didn't when it was released).  Caused
  3811. some funky behaviour when I started typing in a tx window with
  3812. the meta key locked on!
  3813. I tore down x, (killed the server processes, restarted the servers,
  3814. restarted x, and it was better.  Got to be those alpha particles!
  3815. garth
  3816.  
  3817.  
  3818. 313.
  3819. Date: Tue, 22 Aug 89 21:02:16 PDT
  3820. From: mgbaker (Mary Gray Baker)
  3821. Subject: assembler bug
  3822.  
  3823. When assembling sparc code on a sun3, the assembler gets a bus error if you
  3824. have a "bnz" instruction.  This is a synonym for bne, and it isn't implemented,
  3825. but this shouldn't cause a bus error.  The assembler should report
  3826. "unknown opcode" or such.
  3827.  
  3828.  
  3829. 314.
  3830. Date: Tue, 22 Aug 89 21:14:33 PDT
  3831. From: gibson (Garth Gibson)
  3832. Subject: sun3 gdb
  3833.  
  3834. sometimes gdb on the sun3's hangs when i tell it to kill the program
  3835. it is debugging.  if i kill the process in another window, it proceeds
  3836. just peachy keen
  3837.  
  3838.  
  3839. 315.
  3840. Date: Wed, 23 Aug 89 09:03:54 PDT
  3841. From: ouster (John Ousterhout)
  3842. Subject: No warning about disk full?
  3843.  
  3844. I don't seem to be getting syslog warnings about disk partitions
  3845. filling up anymore.  I do get error returns in programs, such
  3846. as "Couldn't open "sun4.md/mx": no space left in file system domain."
  3847. But cache write-backs don't cause error messages.  Is this
  3848. intentional?  I'm not sure it's good.
  3849.  
  3850.  
  3851. 316.
  3852. Date: Wed, 23 Aug 89 10:18:35 PDT
  3853. From: brent (Brent Welch)
  3854. Subject: Oregano ipServer crash
  3855.  
  3856. Oregano's ipServer died in CallTimeoutHandler.
  3857. Its timeoutList seemed ok, but a pointer that it used
  3858. was bogus, readyPtr.  This is an element it plucks from
  3859. the list, so somehow it got confused.
  3860.  
  3861.  
  3862. 317.
  3863. Date: Wed, 23 Aug 89 13:14:25 PDT
  3864. To: bugs
  3865. Subject: Crashes leave display off
  3866.  
  3867. It appears that Sprite doesn't turn on the display when it enters
  3868. the debugger or exits to the boot ROM.  This makes it somewhat harder
  3869. to figure out what has happened when a machine crashes (Piracy always
  3870. seems to crash when it's in screen-saver mode).  I think this was a
  3871. problem on Suns too.  Seems like it ought to be easy to fix.
  3872.  
  3873.  
  3874. 318.
  3875. Subject: mach/ds3100.md/md.mk screwed up
  3876. Date: Wed, 23 Aug 89 14:04:20 PDT
  3877. From: Fred Douglis <douglis>
  3878.  
  3879. All of its sources are for jhh.md instead of ds3100.md.
  3880.  
  3881.  
  3882. 319.
  3883. Subject: ds3100 doesn't sync clock
  3884. Date: Wed, 23 Aug 89 15:32:40 PDT
  3885. From: Fred Douglis <douglis>
  3886.  
  3887. if a machine is in the debugger it doesn't increment its time of day
  3888. clock, nor check it against reality.  kvetching is now 15 minutes
  3889. slow.
  3890.  
  3891.  
  3892. 320.
  3893. Date: Wed, 23 Aug 89 16:18:45 PDT
  3894. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3895. Subject: XCFLAGS funniness
  3896.  
  3897. The lock tracing stuff wasn't getting turned on in the mem module and I
  3898. traced it to the XCFLAGS.  My kernel.mk file adds -DLOCKREG to XCFLAGS,
  3899. and the local.mk file in mem adds -DMEM_TRACE.  If I go to mem and type
  3900. 'pmake spur' only the -DMEM_TRACE shows up, but if I type 'pmake TM=spur'
  3901. they both do. Is there a pmake expert out there who knows why this is
  3902. happening?
  3903.  
  3904.  
  3905. 321.
  3906. Subject: new hosts not being setup properly
  3907. Date: Wed, 23 Aug 89 17:06:32 PDT
  3908. From: Fred Douglis <douglis>
  3909.  
  3910. for example, /hosts/{pepper,parsley,violence}/dev/syslog doesn't exist,
  3911.  
  3912. and /hosts/pepper/dev doesn't even exist.  wall complains.
  3913.  
  3914.  
  3915. 322.
  3916. Date: Wed, 23 Aug 89 17:13:17 PDT
  3917. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  3918. Subject: NET_NUM_SPRITE_HOSTS is bogus
  3919.  
  3920. The number of sprite hosts should not be a constant that is compiled into
  3921. user-level programs. I think this should be obtained through a system
  3922. call.  This would allow us to simply restart programs when we change
  3923. the maximum, rather than recompiling libc.a and therefore the world.
  3924. Right now pmake is broken, making it difficult to recompile a new pmake.
  3925.  
  3926.  
  3927. 323.
  3928. Date: Wed, 23 Aug 89 17:17:24 PDT
  3929. From: douglis (Fred Douglis)
  3930. Subject: host bug
  3931.  
  3932. Turns out it wasn't the addition of host #50 that broke loadavg, it was
  3933. the addition of a blank line.  I'm changing Host_Next to deal with it,
  3934. but no one should insert a blank line in spritehosts until this change
  3935. propagates to every program.
  3936.  
  3937.  
  3938. 324.
  3939. Date: Wed, 23 Aug 89 18:03:21 PDT
  3940. From: brent (Brent Welch)
  3941. Subject: Oregano deadlock
  3942.  
  3943. Oregano ran into a deadlock having to do with a call-back to
  3944. a client during a file remove.  I thought there was only
  3945. one place that is used to wait for call-backs to complete,
  3946. so I stuck my timeout handler at that spot.  Unfortuneatly
  3947. this other case slipped past me, so Oregano wedged after
  3948. it apparently dropped a "consistency completed" RPC from thyme.
  3949. I'll fix up the code so all client callbacks are guarded
  3950. with a timeout.  By the way, it is still concievable that
  3951. this was due to a larger, network-side deadlock problem,
  3952. especially because Oregano's disks were filling up.
  3953.     brent
  3954. PS.  Mint was rebooted at the same time to get it running
  3955. the latest sun3.new.  Both machines had been up for almost
  3956. 6 days!
  3957.  
  3958.  
  3959. 325.
  3960. Date: Wed, 23 Aug 89 19:34:09 PDT
  3961. From: brent (Brent Welch)
  3962. Message-Id: <8908240234.AA336200@sprite.Berkeley.EDU>
  3963. To: bugs
  3964. Subject: silent printer errors
  3965.  
  3966. I still hate the printing system.  I often have
  3967. jobs that abort silently.  I don't really care
  3968. about any of the underlying problems, I just
  3969. want a user-friendly system.
  3970.     brent
  3971. ps.  The files /sprite/spool/lpd/lw608-2/{ErrorLog,lw608-2-log}
  3972. contain no useful information about this particular case.
  3973.  
  3974.  
  3975. 326.
  3976. Date: Wed, 23 Aug 89 13:28:31 PDT
  3977. From: jhh (John H. Hartman)
  3978. Subject: gdb died on sun4
  3979.  
  3980. I was debugging the ipServer on allspice (kernel 1.002) and gdb died
  3981. with the following message: "MachHandleWindowUnderflow: killing process!".
  3982.  
  3983.  
  3984. 327.
  3985. Subject: sun4 bug: allspice misbehaving
  3986. Date: Thu, 24 Aug 89 10:48:21 PDT
  3987. From: Fred Douglis <douglis>
  3988.  
  3989. * allspice's ip server seems to crash much more often than on other
  3990.   machines.
  3991.  
  3992. * allspice's "rup" entry truly is broken (unlike John's joke about
  3993.   mint & oregano).  
  3994.  
  3995.         allspice-   sun4    up  61+23:23  0.00  0.00  0.00  (idle   1+08:58:28)
  3996.  
  3997.   not only is the uptime off (which happens typically when rdate fails
  3998.   and the date isn't initialized, so /hosts/`hostname`/boottime is
  3999.   dated 1969, except that allspice's isn't), but allspice's count of
  4000.   migrated processes seems to be non-zero.
  4001.  
  4002.  
  4003. 328.
  4004. Subject: sun2 directories
  4005. Date: Thu, 24 Aug 89 11:05:03 PDT
  4006. From: Fred Douglis <douglis>
  4007.  
  4008. someone moved (or removed) sun2.md all over the place, but at least
  4009. some directories have not been remkmf'ed. So, "make all" generates a
  4010. lot of complaints.  Time for a world remkmf?
  4011.  
  4012.  
  4013.  
  4014.  
  4015. 329.
  4016. Date: Thu, 24 Aug 89 12:50:49 PDT
  4017. From: mgbaker (Mary Gray Baker)
  4018. Subject: Re: gdb died on sun4
  4019.  
  4020. This isn't a bug, although the error message should be improved.  This
  4021. is what happens to user processes that mess up their stacks (unalign them or
  4022. garbage them) and then get an underflow.  It's sort of like a bus error or
  4023. something, except that your choices of how to handle it inside an underflow
  4024. trap are very limited.  I'll make the error message more informative.  This
  4025. does prove, though, that the watchdog reset is gone, since it used to get a
  4026. watchdog reset when it tried to print the string.  I fixed that problem, which
  4027. is why you now see this message.
  4028.  
  4029.  
  4030. 330.
  4031. Date: Thu, 24 Aug 89 15:14:27 PDT
  4032. From: eklee (Edward K. Lee)
  4033. Subject: rlogin to cory sometimes hangs
  4034.  
  4035. Often times we can not rlogin to tonkawa nor raid even though the ipServer and
  4036. inetd are running and the other non-Sprite machines in Cory are accessible.
  4037. Rlogin daemons are spawned off but seem to immediately enter the DEBUG state.
  4038. In fact, it seems like two rlogin daemons are spawned for for each rlogin
  4039. attempt.  One of the daemons enters the DEBUG state and the other enters a
  4040. wait state.
  4041.  
  4042.  
  4043. 331.
  4044. Date: Thu, 24 Aug 89 15:32:47 PDT
  4045. From: eklee (Edward K. Lee)
  4046. Subject: ditroff on ds3100
  4047.  
  4048. Running ditroff on a ds3100 results in:
  4049. Bad user TLB fault in process 22b32: pc=40f6b4 addr=ffff436
  4050. being printed to the sylog and the process hanging.
  4051.  
  4052.  
  4053. 332.
  4054. Date: Thu, 24 Aug 89 16:39:47 PDT
  4055. From: brent (Brent Welch)
  4056. Subject: Attributes and devices
  4057.  
  4058. Attribute handling is still not perfectly implemented.
  4059. This summarizes what happens and what ought to change.
  4060.  
  4061. 1 - If you stat() a file that is being executing, the
  4062.     kernel reports that the access time is "now".
  4063.     This time does not get propagated back to the
  4064.     file descriptor on disk, so the access time
  4065.     can appear to change
  4066.  
  4067. 2 - While the device I/O servers maintain an access and
  4068.     modify time, this is not pushed back to the
  4069.     file descriptor.  This means that only activity
  4070.     on mint's console will be remembered (maybe)
  4071.  
  4072. 3 - Clients do not set the access and modify time when
  4073.     a file is created.  The file server's time is used.
  4074.     A client does set a modify time when it closes
  4075.     a file, but the server will set the modify time
  4076.     of a write-through (non-cachable) file.  The fix
  4077.     to this requires changing the RPC parameters to
  4078.     OPEN and WRITE to include a modify time, and to
  4079.     add an access time to the READ RPC parameters.
  4080.  
  4081.  
  4082.  
  4083. 333.
  4084. Date: Thu, 24 Aug 89 16:42:24 PDT
  4085. From: brent (Brent Welch)
  4086. Subject: Symbolic link format
  4087.  
  4088. Sprite adds a null to the end of the file name stored
  4089. in a symbolic link, while Unix does not.
  4090. Also, there is no domain-specific SYMLINK operation.
  4091. Instead, a symbolic link is created (a la mknod),
  4092. and then a value is written using the domain-specific
  4093. WRITE procedure.  This means that you can create
  4094. a Sprite-format symbolic link on a Unix file server
  4095. via nfsmount, oops.  This also means you can create
  4096. zero-length symbolic links if the disk is full.
  4097.  
  4098.  
  4099. 334.
  4100. Date: Thu, 24 Aug 89 16:43:53 PDT
  4101. From: brent (Brent Welch)
  4102. Subject: Removes with disk full
  4103.  
  4104. The file servers do not behave well when the disk fills up.
  4105. In particular, removes seem to fail, or at least hang.
  4106. I suspect that the cache gets completely dirty so that
  4107. indirect blocks cannot be read in, and this hangs the
  4108. remove which needs to read the indirect block.
  4109.  
  4110.  
  4111. 335.
  4112. Date: Thu, 24 Aug 89 16:45:25 PDT
  4113. From: brent (Brent Welch)
  4114. Subject: pseudo-device pointer bug
  4115.  
  4116. On the ds3100 and sun4 machines there are occasional
  4117. pseudo-device pointer errors.  The firstByte index
  4118. into the request buffer is not pointing to the
  4119. required magic value.  There is probably a bug
  4120. relating to rounding sizes up to 4-byte boundaries.
  4121. This is killing ipServer and rlogind processes.
  4122.  
  4123.  
  4124. 336.
  4125. Date: Thu, 24 Aug 89 16:46:12 PDT
  4126. From: brent (Brent Welch)
  4127. Subject: chmod symbolic link loop
  4128.  
  4129. chmod 755 /sprite/src/kernel
  4130. generates the error: too many levels of symbolic link
  4131. while
  4132. chmod 755 /sprite/src/kernel/
  4133. works ok.
  4134.  
  4135.  
  4136. 337.
  4137. Date: Thu, 24 Aug 89 16:55:30 PDT
  4138. From: jhh (John H. Hartman)
  4139. Subject: malloc semantics
  4140.  
  4141. Malloc() should return NULL if more memory cannot be allocated. The current
  4142. behavior is to kill the process.  A variable should be provided that allows
  4143. a process to make malloc behave in either fashion.
  4144.  
  4145.  
  4146. 338.
  4147. Date: Thu, 24 Aug 89 17:20:48 PDT
  4148. From: brent (Brent Welch)
  4149. Subject: migration offset
  4150.  
  4151. The stream offset is probably being screwed up during migration.
  4152. This can explain the problems with pmake's shell scripts
  4153. getting apparently garbled.
  4154.  
  4155.  
  4156. 339.
  4157. Date: Thu, 24 Aug 89 17:22:18 PDT
  4158. From: brent (Brent Welch)
  4159. Subject: mail with no /tmp
  4160.  
  4161. The previous empty mail message was generated when /tmp
  4162. was down.  I'm not sure this is worth trying to fix.
  4163. However, my mail session looked like:
  4164.  
  4165. <sage 208> mail bugs
  4166. Subject: migration offset 
  4167. The stream offset is probably being screwed up during migration.
  4168. This can explain the problems with pmake's shell scripts
  4169. getting apparently garbled.
  4170.  
  4171.  
  4172. 340.
  4173. Date: Tue, 29 Aug 89 08:31:38 PDT
  4174. From: ouster (John Ousterhout)
  4175. Subject: Bug in wall
  4176.  
  4177. Brent's wall message about Oregano going down did not ever appear
  4178. on Mace's syslog (but I saw it on Piracy's console).  Furthermore,
  4179. the test wall message yesterday had the same behavior.  For some
  4180. reason wall must be stopping part-way through the list of hosts
  4181. (an error of some sort?).
  4182.  
  4183.  
  4184. 341.
  4185. Date: Tue, 29 Aug 89 08:43:12 PDT
  4186. From: brent (Brent Welch)
  4187. Subject: syslog reopening
  4188.  
  4189. Johns message about a bug in wall is really about
  4190. a bug in reopening /dev/syslog.  Mendel noticed
  4191. yesterday that after he rebooted he couldn't
  4192. cat /dev/syslog.  This was due to a bug in the
  4193. /dev/syslog reopen procedure.  It always thought
  4194. the device was being reopened for reading, which
  4195. breaks things because it is a single-reader device.
  4196. After a reopen, /dev/syslog could never be opened
  4197. for reading.  I've fixed this in my kernel (BW.106)
  4198. and will install a new dev module.
  4199.     brent
  4200. ps.  (BW.106 is a sun3 kernel)
  4201. pps.  This also works around the bug described in #147 "device reopen bug"
  4202.  
  4203.  
  4204. 342.
  4205. Date: Tue, 29 Aug 89 09:31:14 PDT
  4206. From: Fred Douglis <douglis>
  4207. Subject: Re: syslog reopening 
  4208.  
  4209. if wall only made it part-way through, it could be related to the hanging
  4210. rlogin pdev problem I reported yesterday.  wall didn't used to try and
  4211. open rlogins, which was a problem as well.  by the way, brent, that explains
  4212. the problem with murder: wall used to have a bug in which it wouldn't close
  4213. any of its streams until it exited, so if it hung up in an unkillable
  4214. state trying to open a pdev it would have references on all the syslogs
  4215. it ever opened.  i already fixed that and it's in the installed version.
  4216.  
  4217.  
  4218. 343.
  4219. Date: Tue, 29 Aug 89 10:42:23 PDT
  4220. From: ouster (John Ousterhout)
  4221. Subject: Piracy crash again
  4222.  
  4223. Piracy crashed just now as I was attempting to rlogin from mace.
  4224. The console message is:
  4225.  
  4226. Bad kernel TLB fault
  4227. Syncing disks.  Version: SPRITE VERSION 1.002 (ds3100) (20 Aug 89 18:20:10)
  4228. Entering debugger with a TLB LD miss exception at PC 0x800ab804
  4229.  
  4230. I'l leave the corpse around in case anyone wants to take a look
  4231. at it.
  4232.  
  4233.  
  4234. 344.
  4235. Date: Tue, 29 Aug 89 12:16:17 PDT
  4236. From: Fred Douglis <douglis>
  4237. Subject: ds3100 rpn hex broken
  4238.  
  4239. printing large numbers using rpn prints 7fffffff instead of 8nnnnnnn.
  4240. BTW, Mike says this is broken under ultrix as well as sprite.  
  4241.  
  4242.  
  4243. 345.
  4244. Date: Tue, 29 Aug 89 12:32:16 PDT
  4245. From: Fred Douglis <douglis>
  4246. Subject: Re: Piracy crash again 
  4247.  
  4248. i debugged it, then talk to mike.  unfortunately, he only found what i
  4249. found: that the tlb fault happened when a load used a register that
  4250. had a zero value, except that register was the target of an add of
  4251. non-zero values the previous instruction.  Although the status
  4252. register indicated interrupts were off, it's just too suspicious.  I
  4253. suggested that we put in a mousetrap to check for mach_NumDisableIntrs
  4254. > 0 || sys_AtInterruptLevel when taking an interrupt.  Mike: have you
  4255. already made this change, or should I make a stab at it?  (I'm a bit
  4256. worried about using the wrong registers at the wrong time, which is
  4257. why I ask.)
  4258.  
  4259.  
  4260. 346.
  4261. Date: Tue, 29 Aug 89 14:24:37 PDT
  4262. From: rab (Robert A. Bruce)
  4263. Subject: swap
  4264.  
  4265. /sprite/lib/c/net/swap.c is screwed up.  If the host machine is
  4266. little-endian all the byte swapping appears to be correct.  But if
  4267. the host is big-endian the routines all return random garbage off
  4268. of the stack.
  4269.  
  4270. For big-endian machines the net swap routines should a macros that
  4271. perform a nop, but if someone fails to include the header file the
  4272. routines should still work correctly.
  4273.  
  4274. A second problem is that there is no RCS file for swap.c.
  4275.  
  4276. I will fix the swap routines and install the new version.
  4277.  
  4278.  
  4279. 347.
  4280. Date: Tue, 29 Aug 89 14:27:14 PDT
  4281. From: mgbaker (Mary Gray Baker)
  4282. Subject: Allspice crash
  4283.  
  4284. Allspice crashed for the second time with a level 15 interrupt (asynchronous
  4285. cache write-back error).  This is totally disgusting, because the address
  4286. it was trying to write back to was bogus (in the middle of the hole in
  4287. the virtual address space).  I don't yet even know how you could get an address
  4288. like that into the cache in the first place.  I'm currently investigating this.
  4289. It's one bit different from a valid address in the intel page, but that's marked
  4290. as non-cacheable.
  4291.  
  4292. Anyway, if allspice crashes again with this, and I'm not here, could whoever
  4293. debugs it please record the value of the global registers for me?  Thanks.
  4294. They contain interesting information on this kind of error.
  4295.  
  4296.  
  4297. 348.
  4298. Date: Tue, 29 Aug 89 15:16:16 PDT
  4299. From: rab (Robert A. Bruce)
  4300. Subject: readdir
  4301.  
  4302. There was a bug in readdir() that caused it to swap bytes incorrectly.
  4303. Because of this, programs that use readdir did not work correctly
  4304. when accessing disks mounted on little-endian machines.
  4305.  
  4306. I fixed the bug and I have recompiled `ls', `sh' and `csh', so they
  4307. work correctly now.  Other programs that use readdir still need to
  4308. be recompiled.
  4309.  
  4310.  
  4311. 349.
  4312. Date: Tue, 29 Aug 89 15:31:06 PDT
  4313. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4314. Subject: thyme won't boot
  4315.  
  4316. Thyme won't boot because mint won't answer it's broadcast for "/".
  4317. Last Friday I changed the routing between mint and thyme to use
  4318. the IP protocol in an attempt to debug what was happening over in
  4319. cory.  When I was done I ran 'netroute -f /etc/spritehosts' on
  4320. mint, but this didn't fix things. 'netroute -p' prints out the
  4321. correct routing information for thyme. 'rpcstat -trace' shows that
  4322. mint thought it responded to the request. 'etherfind' does not show
  4323. mint sending any IP packets.
  4324.  
  4325.  
  4326. 350.
  4327. Date: Tue, 29 Aug 89 16:23:06 PDT
  4328. From: Fred Douglis <douglis>
  4329. Subject: /tmp trashed??
  4330.  
  4331. try doing an "ls /c/tmp"
  4332.  
  4333. on sun4s i get a segv.   on a ds3100 i get "assertion failed: line 49
  4334. of readdir.c".  on sun3s i get "dp->d_namlen <= 255" explicitly stated
  4335. as an assertion failure.
  4336.  
  4337. time to reboot oregano and check its disks???
  4338.  
  4339.  
  4340. 351.
  4341. Date: Tue, 29 Aug 89 16:25:30 PDT
  4342. From: brent (Brent Welch)
  4343. Subject: sun4 compiler
  4344.  
  4345. The sun4 cc1.space dies with
  4346. error: ldexp
  4347. when compiling in my ~brent/idleTime directory.
  4348. I have had other successes with the sun4 compiler, however,
  4349. so I encourage people to still try compiling things.
  4350.     brent
  4351. ps.  The file it fails on is print.c
  4352.  
  4353.  
  4354. 352.
  4355. Date: Tue, 29 Aug 89 16:25:41 PDT
  4356. From: Fred Douglis <douglis>
  4357. Subject: sun4 rdist missing
  4358.  
  4359. the program doesn't exist.  rdist.prog/sun4.md was empty except for
  4360. md.mk, and when i tried to do mkmf, the makedepend went into an
  4361. infinite loop.
  4362.  
  4363.  
  4364.  
  4365. 353.
  4366. Date: Tue, 29 Aug 89 16:31:00 PDT
  4367. From: brent (Brent Welch)
  4368. Subject: Re: ls problems in /tmp
  4369.  
  4370. A new ls was installed today.
  4371. It probably can't choke down something
  4372. in /tmp.  I don't think the directory is messed up.
  4373. Let us debug ls first.
  4374.  
  4375.  
  4376. 354.
  4377. Date: Tue, 29 Aug 89 18:04:47 PDT
  4378. From: mgbaker (Mary Gray Baker)
  4379. Subject: prof file open bug
  4380.  
  4381. Did I already report this?  The prof module was opening the dump output file
  4382. without the truncate flag, so crud could be left at the end of the file
  4383. that gprof would die on.  It's been fixed.  Next time we do an install,
  4384. everyone will see the fix.
  4385.  
  4386.  
  4387.  
  4388. 355.
  4389. Date: Tue, 29 Aug 89 18:22:50 PDT
  4390. From: mgbaker (Mary Gray Baker)
  4391. Subject: tftp daemon problem?
  4392.  
  4393. I was unable to reboot anise because the tftp daemon wasn't running on mint.
  4394. There was no daemon in the debugger, though.  Would it just exit, or did
  4395. somebody kill it?
  4396.  
  4397.  
  4398.  
  4399. 356.
  4400. Date: Tue, 29 Aug 89 18:30:47 PDT
  4401. From: mgbaker (Mary Gray Baker)
  4402. Subject: newly installed sun4 csh broken
  4403.  
  4404. The newly-installed sun4 csh is broken.  It dies when you try to login to a
  4405. sun4, because it has a bad stack pointer.  I would back it out, but it appears
  4406. that whoever installed it overwrote the backup csh in the cmds.old area with the
  4407. csh that causes ls to die on command completion sometimes.  So, I guess I'll
  4408. move csh to csh.bad and put a copy of the older bad csh in cmds.sun4 as the
  4409. current csh.  This at least will allow you to login.  It's a pity that the
  4410. person who installed it didn't try it out before installing it.  With something
  4411. as major as csh, this might be a good idea?
  4412.  
  4413.  
  4414.  
  4415. 357.
  4416. Date: Tue, 29 Aug 89 18:36:17 PDT
  4417. From: mgbaker (Mary Gray Baker)
  4418. Subject: Ugh, it's my fault
  4419.  
  4420. Well, it seems I've done something totally bizarre to anise.  The sun4 csh
  4421. works just fine on allspice.  I'll do some debugging and eventually maybe
  4422. be able to remove my foot from my mouth.
  4423.  
  4424.  
  4425. 358.
  4426. Date: Wed, 30 Aug 89 09:47:16 PDT
  4427. From: brent (Brent Welch)
  4428. Subject: mint boots sprite on homer
  4429.  
  4430. The folks in 608-1 complained that homer was running Sprite.
  4431. Indeed, mint was beating ginger to the punch and supplying
  4432. it with a Sprite kernel.  How do we enforce control over
  4433. tftp booting?  Only with the symbolic links set up in
  4434. /sprite/boot?  If so, we should be careful about setting
  4435. up links for not-normally-sprite-hosts in /sprite/boot.
  4436. For now, I'm booting homer with
  4437. ie(0,961c)
  4438. to force it to run UNIX
  4439.  
  4440.  
  4441. 359.
  4442. Date: Wed, 30 Aug 89 10:33:55 PDT
  4443. From: brent (Brent Welch)
  4444. Subject: /sprite/boot up-to-date
  4445.  
  4446. I went through /sprite/boot and removed a few symbolic
  4447. links that correspond to machines no longer running sprite.
  4448. This includes:
  4449. homer (128.32.150.50  a.k.a. 80209632)
  4450. turmeric (128.32.150.37 a.k.a. 80209625)
  4451. bay (128.32.150.18 a.k.a. 80209612)
  4452. tully (128.32.150.44 a.k.a. 8020962C)
  4453. I also see a link for 80209C68.SUN4, which is an unused
  4454. address on the 156 net (cory).  This is probably for
  4455. raid, but raid isn't in the host tables I see.
  4456. There is also a link for 80209c95, which corresponds
  4457. to ponca, except that the 'c' probably needs to
  4458. be capatalized, and I don't know if tftp booting
  4459. works through the gateway(s) or not.
  4460.  
  4461.  
  4462. 360.
  4463. Date: Wed, 30 Aug 89 10:36:09 PDT
  4464. From: Fred Douglis <douglis>
  4465. Subject: Re: /sprite/boot up-to-date 
  4466.  
  4467. this is rather awkward, since we might occasionally want to boot
  4468. sprite on different hosts.  perhaps we could have a script like the
  4469. one on ultrix to add/remove hosts automatically.
  4470.  
  4471.  
  4472.  
  4473. 361.
  4474. Date: Wed, 30 Aug 89 12:49:20 PDT
  4475. From: Fred Douglis <douglis>
  4476. Subject: new xdvi installed... color support, but doesn't run native on ds3100
  4477.  
  4478. I picked up some patches from comp.sources.x for xdvi.  It now runs on
  4479. a sun3 using a color ds3100 display (it already worked for B&W).
  4480. However, it doesn't run native on a ds3100 -- I presume it has
  4481. byte-ordering problems.  I'm inclined not to fix it, since I imagine
  4482. someone else will as there have been regular updates.
  4483.  
  4484. If I broke anything else with the new install, let me know.
  4485.  
  4486.  
  4487.  
  4488. 362.
  4489. Date: Thu, 31 Aug 89 00:01:41 PDT
  4490. From: Fred Douglis <douglis>
  4491. Subject: Re: xgone complaint 
  4492.  
  4493. well, the default is to prompt for a password, i guess.  actually,
  4494. i thought i'd changed that, but maybe not.  i'll check.  in any case,
  4495. there's an option to disable it, and you should be able to rlogin and
  4496. kill it, can't you?
  4497.  
  4498.  
  4499.  
  4500. 363.
  4501. Date: Wed, 30 Aug 89 14:19:07 PDT
  4502. From: Fred Douglis <douglis>
  4503. Subject: another ds3100 crash (malloc)
  4504.  
  4505. piracy died with a bogus value (0x54) in its freelist.  nothing too
  4506. terribly obvious, except i did notice that cardamom had recently
  4507. rebooted and it was in a migration-related call for something with
  4508. home node cardamom.  does anyone know what cardamom was doing when it
  4509. was rebooted? i wonder if something got freed too soon, or something.
  4510.  
  4511. p.s.  dave culler said that piquante was just as unstable running
  4512. ultrix as running sprite: xterm would die about once/day and the
  4513. kernel itself would crash periodically.
  4514.  
  4515.  
  4516.  
  4517. 364.
  4518. Date: Wed, 30 Aug 89 17:19:46 PDT
  4519. From: Fred Douglis <douglis>
  4520. Subject: assault hardware problem?
  4521.  
  4522. for the record: assault died a little while ago with something called
  4523. a "bus error".  however, the address was 0xc0c019d4, and 0xc0c019d0
  4524. and d8 were perfectly valid.  apparently, a bus timeout can occur on a
  4525. parity error, which is a possible cause of assault's problem.
  4526.  
  4527.  
  4528.  
  4529. 365.
  4530. Date: Wed, 30 Aug 89 22:26:27 PDT
  4531. From: jhh (John H. Hartman)
  4532. Subject: xgone complaint
  4533.  
  4534.  
  4535. Several times I have been confronted by machines running xgone that
  4536. insist I type in the password for the person that started it running.
  4537. It would be nice if xgone could be killed or the password feature
  4538. disabled.  
  4539.  
  4540.  
  4541.  
  4542. 366.
  4543. Date: Thu, 31 Aug 89 09:48:49 PDT
  4544. From: ouster (John Ousterhout)
  4545. Subject: Another Piracy Crash
  4546.  
  4547. This time the message was:
  4548.  
  4549. Fatal Error: Page number outside bounds of corePtr->virPage.page table
  4550. Syncing disks Version: SPRITE VERSION 1.002 (ds3100) (20 Aug 88 18:20:10)
  4551. Entering debugger with a Breakpoint trap exception at PC 0x800bc6d8
  4552.  
  4553. The corpse is available for debugging.
  4554.  
  4555.  
  4556. 367.
  4557. Date: Thu, 31 Aug 89 11:02:48 PDT
  4558. From: Fred Douglis <douglis>
  4559. Subject: Re: Another Piracy Crash 
  4560.  
  4561. this is similar to a crash i looked at before: Vm_Clock was trying to
  4562. clean a page that didn't belong in the segment it pointed to.  The
  4563. segment was an inactive code segment with 17 pages (16 resident), and
  4564. corePtr->virtPage referenced page 1037.  so for example, if the
  4565. virtPage page number had an extra bit set accidentally, it could have
  4566. really meant to reference 0xd instead of 0x40d and it would be a
  4567. perfectly reasonable page.  Just a thought...
  4568.  
  4569.  
  4570.  
  4571. 368.
  4572. Date: Thu, 31 Aug 89 11:20:10 PDT
  4573. From: brent (Brent Welch)
  4574. Subject: Too many system calls
  4575.  
  4576. The "Too many system calls" should not be a panic, I think,
  4577. because the problem occurs very early during bootstrap.
  4578. Can't it just print out a warning and ignore the
  4579. rest of the kernel calls?
  4580.  
  4581.  
  4582.  
  4583. Date: Thu, 31 Aug 89 11:52:55 PDT
  4584. From: ouster (John Ousterhout)
  4585. Subject: The slows
  4586.  
  4587. Something related to Sprite seems to have "the slows" this morning.
  4588. I suspect Allspice, because that's where the files are that I'm
  4589. compiling.  The symptoms are that a compile takes a VERY long time,
  4590. and the status line printed afterwards shows only 10-15% utilization
  4591. of the CPU.  Also, I've noticed occasional RPC timeout messages about
  4592. allspice.  The problem has come and gone a couple of times this
  4593. morning.
  4594.  
  4595.  
  4596.  
  4597. 370.
  4598. Date: Thu, 31 Aug 89 12:21:49 PDT
  4599. From: Fred Douglis <douglis>
  4600. Subject: ds3100 ultrix weirdness
  4601.  
  4602. a comment on *ultrix* weirdness.  (i asked david if he's seen the same
  4603. thing on piquante since it switched to sprite.)
  4604.  
  4605. ------- Forwarded Message
  4606.  
  4607. Date:    Thu, 31 Aug 89 12:15:27 -0700 
  4608. From:    david@fennel.berkeley.edu (David A. Wood)
  4609. To:      root@fennel.Berkeley.EDU
  4610. Subject: ds3100 (ultrix) NFS weirdness
  4611.  
  4612. I have been running my cache simulator on greed and piquante and
  4613. occasionally get some bogus results.  They are very small errors, usually
  4614. an extra line or two in the input file, but it is somewhat disconcerting.
  4615. Has anyone else been experiencing these problems??
  4616.  
  4617.     --david
  4618.  
  4619. ------- End of Forwarded Message
  4620.  
  4621.  
  4622.  
  4623. 371.
  4624. Date: Thu, 31 Aug 89 12:30:10 PDT
  4625. From: Fred Douglis <douglis>
  4626. Subject: page-in error can kill kernel
  4627.  
  4628. paprika crashed yesterday with a bus error.  turns out Proc_Exec made
  4629. an argument array accessible, then hit a bus error referencing it.
  4630. this was about the time that allspice crashed, i got an "Fs_PageRead
  4631. waiting" message, and i hit ^C to interrupt the exec.  looks like
  4632. Vm_MakeAccessible needs to lock down the page rather than relying on
  4633. the same Vm_Copy check, since an error on page in has a choice of
  4634. killing the kernel or returning something that will not be passed back
  4635. to the routine accessing the data.  at least, a page-in error is the
  4636. only thing I can think of to account for the kernel dying.
  4637. Suggestions from the VM experts??
  4638.  
  4639.  
  4640. 372.
  4641. Date: Thu, 31 Aug 89 12:13:37 PDT
  4642. From: mgbaker (Mary Gray Baker)
  4643. Subject: Re: The slows
  4644.  
  4645. Yesterday when I went to check on allspice's slowness, messages on the
  4646. console showed it had been blasted with rpc version mismatches.  This happened,
  4647. it seemed, just when assault was booted (and unbooted quickly, since it
  4648. died real soon).  I reset the network interface and this helped to some extent,
  4649. since mint could talk to allspice again where it hadn't just before.  Maybe
  4650. something worse is going on.  Whatever it is, it only seems to pick on certain
  4651. client machines at a time.
  4652.  
  4653.  
  4654.  
  4655. 373.
  4656. Date: Thu, 31 Aug 89 12:38:52 PDT
  4657. From: Fred Douglis <douglis>
  4658. Subject: Re: Too many system calls 
  4659.  
  4660. I've changed *.md/machCode.c to handle inconsistencies a little
  4661. better.  It prints warnings for too many system calls (ignoring the
  4662. extra) or too many arguments (ditto).  It also prints a warning for
  4663. out-of-order call initialization.  Mendel says that should be a panic
  4664. still, but the problem (as we've seen) is that it's too early to
  4665. panic.  I'm open to suggestions.
  4666.  
  4667. I'm recompiling now.
  4668.  
  4669.  
  4670.  
  4671. 374.
  4672. Date: Thu, 31 Aug 89 13:50:32 PDT
  4673. From: mendel (Mendel Rosenblum)
  4674. Subject: sprintf man page incorrect
  4675.  
  4676. The man page for sprintf says:
  4677.  
  4678. RETURN VALUE
  4679.      The functions all return the number of characters printed,
  4680.      or -1 if an error occurred.
  4681.  
  4682. This is incorrect.
  4683.  
  4684.  
  4685.  
  4686. 375.
  4687. Date: Thu, 31 Aug 89 17:08:03 PDT
  4688. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  4689. Subject: rcp hangs on ds3100
  4690.  
  4691.  
  4692. Rpc of a kernel from a ds3100 to dill hangs.
  4693.  
  4694.  
  4695. 376.
  4696. Date: Fri, 01 Sep 89 00:14:35 PDT
  4697. From: rab (Robert A. Bruce)
  4698. Subject: Allspice crashed
  4699.  
  4700. Allspice crashed with the following error:
  4701.  
  4702. Fatal Error:  Page number outside bounds of pagetable
  4703. Entering debugger with a Interrupt trap (16) exception at PC 0xf6081320
  4704.  
  4705. Jhh tried to debug it but couldn't because it was running sun4 instead
  4706. of sun4.new and the sources aren't available.
  4707.  
  4708. The bug is repeatable by running gdb and trying to stepi through
  4709. an instruction that destroys the stack pointer.
  4710.  
  4711.  
  4712.  
  4713. 377.
  4714. Date: Thu, 31 Aug 89 20:10:27 PDT
  4715. From: mgbaker (Mary Gray Baker)
  4716. Subject: printenv doesn't take arguments
  4717.  
  4718. On unix machines such as rosemary, printenv will take arguments so that you
  4719. can say
  4720. "printenv TERM"
  4721. and get the answer
  4722. "tx"
  4723. rather than the answer
  4724. "printenv doesn't take any arguments;  "TERM .." ignored."
  4725. and then your whole environment.
  4726.  
  4727.  
  4728.  
  4729. 378.
  4730. Date: Thu, 24 Aug 89 17:22:18 PDT
  4731. From: brent (Brent Welch)
  4732. Subject: mail with no /tmp
  4733.  
  4734. The previous empty mail message was generated when /tmp
  4735. was down.  I'm not sure this is worth trying to fix.
  4736. However, my mail session looked like:
  4737.  
  4738. <sage 208> mail bugs
  4739. Subject: migration offset 
  4740. The stream offset is probably being screwed up during migration.
  4741. This can explain the problems with pmake's shell scripts
  4742. getting apparently garbled.
  4743.  
  4744.  
  4745.  
  4746. 379.
  4747. Date: Thu, 24 Aug 89 17:24:40 PDT
  4748. From: brent (Brent Welch)
  4749. Subject: mail with no /tmp
  4750.  
  4751. (This superceeds the previous message.)
  4752. I tried to send mail while oregano was down.
  4753. After I ended the mail session by typing
  4754. . (on a line by itself :)
  4755. I got:
  4756. EOT
  4757. Null message body; hope that's ok
  4758. read: stale remote file handle
  4759.  
  4760. And an empty message with no subject line
  4761. was generated.
  4762.     brent
  4763.  
  4764.  
  4765. 380.
  4766. Date: Thu, 24 Aug 89 17:51:22 PDT
  4767. From: brent (Brent Welch)
  4768. Subject: Oregano hung for 5 minutes
  4769.  
  4770. My consistency timeout kicked in today.
  4771. The timeout period is 5 miniutes in order to
  4772. allow a client with a large dirty cache
  4773. plenty of time for a write-back.  However,
  4774. 5 minutes is enough time for everyone to
  4775. think there is a major problem.  I almost
  4776. had Oregano in the debugger when the timeout
  4777. message appeared on the console and things
  4778. fixed themselves up quite nicely.  How about
  4779. a shorter timeout?
  4780.  
  4781.  
  4782. 381.
  4783. Date: Thu, 24 Aug 89 21:25:49 PDT
  4784. From: rab (Robert A. Bruce)
  4785. Subject: mkmf
  4786.  
  4787. I tried to re-mkmf the library directory but mkmf generated bogus
  4788. makefiles.  Make issues the following complaints:
  4789.  
  4790. "Makefile", line 29: Undefined variable "$ "
  4791. "/sprite/lib/pmake/biglib.mk", line 64: Undefined variable "$ "
  4792. ...
  4793. "/sprite/lib/pmake/tm.mk", line 23: Undefined variable "$ "
  4794. ...
  4795.  
  4796. The offending line in the Makefile is:
  4797.  
  4798. TM                 ?= $ {defTarget:q}
  4799.  
  4800. At first I thought that there was just an extra space after
  4801. the $, but when I removed it I got these messages:
  4802.  
  4803. pmake: Unknown modifier 'q'
  4804. "Makefile", line 29: Undefined variable "${defTarget:q}"
  4805. pmake: Unknown modifier 'q'
  4806. "/sprite/lib/pmake/biglib.mk", line 64: Undefined variable "${defTarget:q}"
  4807. pmake: Unknown modifier 'q'
  4808. ...
  4809.  
  4810.  
  4811.  
  4812. 382.
  4813. Date: Thu, 24 Aug 89 21:50:16 PDT
  4814. From: Fred Douglis <douglis>
  4815. Subject: Re: mkmf 
  4816.  
  4817. oops.  there was a typo in mkmf.biglib.  the extra space was in the
  4818. mkmf script, not in the makefile.   it's fixed now.
  4819.  
  4820.  
  4821.  
  4822. 383.
  4823. Date: Fri, 25 Aug 89 08:40:27 PDT
  4824. From: ouster (John Ousterhout)
  4825. Subject: Piquante won't boot
  4826.  
  4827. David Culler has been trying unsuccessfully to boot piquante this
  4828. morning.  After the command "boot -f tftp()", the following messages
  4829. appear:
  4830.  
  4831. TFTP Error: 1 (file not found)
  4832. TFTP Error: 1 (file not found)
  4833. TFTP Error: 1 (file not found)
  4834. TFTP Error: 1 (file not found)
  4835. couldn't load tftp
  4836.  
  4837. Can someone who understands ds3100's better than I do (Bob?  Fred?)
  4838. give David a hand in getting his machine booted again?  Thanks.
  4839.  
  4840.                     -John-
  4841.  
  4842. P.S. I'm wondering if the problem is a well-intentioned Ultrix
  4843. TFTP daemon responding to the broadcast before Sprite does.
  4844.  
  4845.  
  4846. 384.
  4847. Date: Fri, 25 Aug 89 08:51:06 PDT
  4848. From: Fred Douglis <douglis>
  4849. Subject: Re: Piquante won't boot 
  4850.  
  4851. I get that any time I try to boot with tftp without saying "init" to
  4852. the prom beforehand.  Had he tried that?
  4853.  
  4854.  
  4855.  
  4856. 385.
  4857. Date: Fri, 25 Aug 89 08:58:18 PDT
  4858. From: ouster (John Ousterhout)
  4859. Subject: Re: Piquante won't boot
  4860.  
  4861. At your suggestion I tried "init", but it didn't work.  I also tried
  4862. power-cycling the machine, which also didn't help.
  4863.  
  4864.  
  4865. 386.
  4866. Date: Sun, 27 Aug 89 21:21:41 PDT
  4867. From: Fred Douglis <douglis>
  4868. Subject: debugging hosts
  4869.  
  4870. did anyone have a chance to poke around murder in the debugger before
  4871. rebooting it?  i need to look in the debugger any time something like
  4872. this happens.
  4873.  
  4874. also, it would be very useful for bug reports to say not only which
  4875. hosts are involved with a problem, but which kernels they are running.
  4876. Having monotonically increasing version numbers is a wonderful idea
  4877. because it makes it much easier to identify kernels.  I noticed that
  4878. Brent set up his own directory to do something similar, so I copied
  4879. his Makefile setup to my own; for example, right now I'm running 
  4880.  
  4881.    Kernel version: SPRITE VERSION FD.001 (ds3100) (25 Aug 89 18:34:42)
  4882.  
  4883.  
  4884.  
  4885. 387.
  4886. Date: Fri, 25 Aug 89 10:36:09 PDT
  4887. From: Fred Douglis <douglis>
  4888. Subject: ds3100 stuff
  4889.  
  4890.  
  4891. [john, sorry for the duplication due to my typo]
  4892.  
  4893.  i noticed piracy was in the debugger and tried to debug it.  however,
  4894. i couldn't find out which kernel it is running, because kmsg -v
  4895. doesn't work, and i misguessed.  you might as well reboot.  
  4896.  
  4897. also, brent and i had trouble finding the unstripped binary
  4898. corresponding to the installed ds3100 that dave culler is running.
  4899. turns out someone removed it or overwrote it on sprite, but i had
  4900. copied it to dill in the form "ds3100.new" a few days ago.  we really
  4901. need to be careful about keeping debuggable versions, especially on
  4902. dill (in /sprite/src/kernel/nelson, at the moment, which is on dill's
  4903. local disk).
  4904.  
  4905. finally, are the rdists of kernel sources to unix being done
  4906. automatically, finally?  dill mounts /sprite3 and i have set up the
  4907. debugger search path to look there.  
  4908.  
  4909.  
  4910. 388.
  4911. Date: Fri, 25 Aug 89 11:07:19 PDT
  4912. From: culler (David Culler)
  4913. Subject: IO error from EMACS
  4914.  
  4915. When ``that evel editor'' (EMACS) tries to write a file to
  4916. a pseudo-file system it gets an "IO error".  Apparently this
  4917. arises when EMACS tries to sync the file to make sure it is
  4918. written, as the write was successful.
  4919.  
  4920.  
  4921.  
  4922. 389.
  4923. Date: Fri, 25 Aug 89 11:48:56 PDT
  4924. From: ouster (John Ousterhout)
  4925. Subject: Kernel names in /sprite/src/kernel/sprite
  4926.  
  4927. Perhaps all this has been fixed in the recent changes, but it
  4928. used to be that each recompilation in /sprite/src/kernel/sprite
  4929. moved the "current" kernel (e.g. sun3) to one with a date appended
  4930. to its name.  This is all fine, except that there was no obvious
  4931. way to tell which of the many old sun3 kernels corresponded to
  4932. what was installed as sun3.new, or, more importantly, sun3.  Hence
  4933. at one point I accidentally removed the only unstripped copy of the
  4934. sun3 kernel while trying to cleanup up irrelevant binaries.
  4935.  
  4936. Does the new naming scheme make it clear which unstripped kernels
  4937. correspond to "official" versions?  If not, it would be nice if it
  4938. did.
  4939.  
  4940.  
  4941.  
  4942. 390.
  4943. Date: Fri, 25 Aug 89 12:11:52 PDT
  4944. From: rab (Robert A. Bruce)
  4945. Subject: Re: ds3100 stuff
  4946.  
  4947. There is a shell script in /sprite/lib/misc/distfile.kernel to
  4948. rdist the kernel sources.  I isn't run from the crontab right now
  4949. because there is a problem.  When sprite attempts to find the size
  4950. of a file on ginger it gets the wrong size, so every file is copied
  4951. every time.
  4952.  
  4953. I am not sure what the problems is.  I suppose we could put it in
  4954. the crontab anyway for now.  Does anybody have any ideas as to
  4955. why the sizes are getting screwed up?
  4956.  
  4957.  
  4958.  
  4959.  
  4960. 391.
  4961. Date: Sun, 27 Aug 89 21:46:44 PDT
  4962. From: Fred Douglis <douglis>
  4963. Subject: ds3100 getting repeated floating-point interrupt in kernel
  4964.  
  4965. Garth commented that he crashed a couple of ds3100s (pepper and
  4966. parsley) running his simulator on them.  Turns out parsley was in the
  4967. same state as pepper, but this time ^C followed by "run" in kdbx (not
  4968. normally needed, I thought) made me able to poke around.  It was in a
  4969. panic due to an FP interrupt in kernel mode.  This happened once
  4970. before and Mike said to let him know if it happened again, I think.  
  4971.  
  4972. i'll mail the kdbx session to Mike in case it's of use.  it includes
  4973. mach_DebugState.
  4974.  
  4975.  
  4976.  
  4977. 392.
  4978. Date: Fri, 25 Aug 89 12:21:41 PDT
  4979. From: rab (Robert A. Bruce)
  4980. Subject: unkillable process
  4981.  
  4982. The dump died last night.  When I tried to restart it I got
  4983. this error:
  4984.  
  4985. Can't open /hosts/murder/dev/exabyte.norewind: text file or pseudo-device busy
  4986.  
  4987. The process that has it open is
  4988.  
  4989. 9112c WAIT    2:04 tar ncfT - -
  4990.  
  4991. This process completely ignores `kill -DEBUG' and `kill -KILL'.
  4992. The process is still alive on murder if anyone wants to
  4993. look at it.
  4994.  
  4995.  
  4996.  
  4997. 393.
  4998. Date: Fri, 25 Aug 89 13:25:12 PDT
  4999. From: brent (Brent Welch)
  5000. Subject: Re: Kernel names in /sprite/src/kernel/sprite
  5001.  
  5002. The Makefile saves the ${TM} kernel image in ${TM}.version
  5003. at the end of the script.  It is easy to revert and
  5004. leave the kernel in ${TM} and do the rename before you
  5005. make the next version.  We can vote on this at meeting.
  5006.  
  5007.  
  5008.  
  5009. 394.
  5010. Date: Fri, 25 Aug 89 14:08:43 PDT
  5011. From: eklee (Edward K. Lee)
  5012. Subject: gremlin
  5013.  
  5014. I'm trying to run gremlin remotely using forgery's monitor but gremlin
  5015. complains: "Couldn't open font file"
  5016. I was able to run xdvi remotely.
  5017.  
  5018.  
  5019. 395.
  5020. Date: Fri, 25 Aug 89 15:41:14 PDT
  5021. From: Fred Douglis <douglis>
  5022. Subject: pmake garbling explained
  5023.  
  5024. after looking carefully at the pmake output, we realized what was
  5025. happening.  the shell would read some commands, then suddenly start
  5026. reading from the beginning again.  We figured this had to be because
  5027. of eviction.  brent has found two shared-offset bugs so far, one for
  5028. reading and one for writing, and i have a program that can recreate
  5029. the problem, though only for full 4096-byte reads, not the smaller
  5030. reads that sh does.  
  5031.  
  5032. anyway, thanks for the suggestions.  my check for the file existing
  5033. did catch the fact that there are occasionally leftover files in /tmp
  5034. with the same processid, but as it turns out, "w+" truncates as well
  5035. so that wasn't really the problem.
  5036.  
  5037.  
  5038.  
  5039. 396.
  5040. Date: Fri, 25 Aug 89 16:06:54 PDT
  5041. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5042. Subject: sprite rpc and gateways
  5043.  
  5044.  
  5045. Right now it looks like the gateway between evans and cory is
  5046. changing random words.  We don't have a checksum mechanism to
  5047. protect against this.  Every time tonkawa boots at least one program
  5048. contains an illegal instruction. As a result the spur cluster in
  5049. Cory is unusable. I have set tonkawa up to use as much stuff off
  5050. of its local disk as possible, but this is only a partial fix since
  5051. some things still need to access /sprite.
  5052.  
  5053.  
  5054.  
  5055. 397.
  5056. Date: Fri, 25 Aug 89 18:03:16 PDT
  5057. From: mgbaker (Mary Gray Baker)
  5058. Subject: Question about file system cache
  5059.  
  5060. I compiled a new test kernel for the sun4 in my kernel directory.  In
  5061. /sprite/boot I had a symbolic link to it.  When I tried to reboot, tftp said
  5062. there was no such file.  But there was.  It turns out the file system was
  5063. full, although I got no write-back errors when I compiled the kernel.  When I
  5064. cleaned out some space elsewhere in the file system, tftp found the file.
  5065.  
  5066. Shouldn't I see a message about write-backs not working?  I probably don't
  5067. understand what's going on, but I assume this all happened because the file
  5068. was still in the client's fs cache.  I guess there's nothing that can be done
  5069. about it, but it seems a weird kind of caching to me if references to the file
  5070. can't find what's cached for the file.  Yeah, I know it's on a different
  5071. machine, but the behavior still seems weird to me.
  5072.  
  5073.  
  5074.  
  5075. 398.
  5076. Date: Fri, 25 Aug 89 18:06:45 PDT
  5077. From: Fred Douglis <douglis>
  5078. Subject: Re: Question about file system cache 
  5079.  
  5080. As I just told Mary in person, the lack of a message is because the
  5081. link took place on another host and the messages went to its syslog.
  5082. We should figure out how to do something about this.
  5083.  
  5084.  
  5085.  
  5086. 399.
  5087. Date: Fri, 25 Aug 89 18:16:35 PDT
  5088. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5089. Subject: fix to #281
  5090.  
  5091. There are new versions of rn, inews, Rnmail, and Pnews installed that
  5092. fix bug #281 (among other things). For future reference, if someone
  5093. installs rn and has to run the Configure script, tell it you don't
  5094. want the programs to be portable. That will cause rn to think the host
  5095. name is always 'sprite.berkeley.edu'.
  5096.  
  5097.  
  5098.  
  5099. 400.
  5100. Date: Fri, 25 Aug 89 18:46:42 PDT
  5101. From: Fred Douglis <douglis>
  5102. Subject: migration signal race condition (hopefully) fixed
  5103.  
  5104. Brent reported earlier that a script he wrote to test shared offsets
  5105. would often hang.  I looked into it and found the problem was
  5106. primarily in the check in Sig_Pause that would cause the user-level
  5107. library to repeat Sig_Pause in the event that a migration signal was
  5108. pending.  In fact, it should only repeat if the *only* signal pending
  5109. is migration related.  In addition, while I was looking at potential
  5110. causes, I realized there's a race condition when sending signals to a
  5111. process that's about to migrate back home.  I think I fixed that too,
  5112. though there may still be a tiny window of vulnerability I'll have to
  5113. investigae.  
  5114.  
  5115. Fixed in the uninstalled proc & sig for ds3100.  I'll compile for the
  5116. other machine types now.
  5117.  
  5118.  
  5119. 401.
  5120. Date: Sun, 27 Aug 89 12:14:58 PDT
  5121. From: ouster (John Ousterhout)
  5122. Subject: Migration hangup
  5123.  
  5124. Migration seems to have caused creeping paralysis in Mace this
  5125. morning.  I ran pmake, noticed that it wasn't doing anything,
  5126. and also noticed the following message in my syslog window:
  5127.  
  5128. RpcDoCall: <mig command> RPC to murder is hung
  5129.  
  5130. Sure enough, murder seemed to be dead (no response to rlogins,
  5131. for example).  However, I was unable to control-C the pmake process
  5132. (no response in the window where I typed control-C).  I then tried
  5133. "kill -KILL" on the "sh -ev" process that was hanging during migration,
  5134. and that just hung the shell where I typed the kill.  Finally, I
  5135. typed "kmsg -d murder" in another window, at which point the following
  5136. messages appeared in my syslog window, and everything cleaned itself
  5137. up:
  5138.  
  5139. <mig command> RPC exit 0x30002
  5140. <mig command> 8/27/89 12:11:44 murder (17) RPC timed-out
  5141. Warning: Proc_MigrateTrap: error encountered sending encapsulated state:
  5142.     no Reply to an RPC request within a threshold time limit.
  5143. <mig command> 8/27/89 12:11:51 murder (17) RPC timed-out
  5144.  
  5145. At this point I continued murder and everything seems OK, at least
  5146. for now.  What I don't understand is why I had to put Murder into
  5147. the debugger before migration cleaned itself up.
  5148.  
  5149.  
  5150. 402.
  5151. Date: Sun, 27 Aug 89 12:57:53 PDT
  5152. From: ouster (John Ousterhout)
  5153. Subject: gdb not killing process:  repeatable?
  5154.  
  5155. I think I know how to reproduce the problem where gdb hangs while
  5156. killing a process:
  5157.  
  5158. 1. Start up gdb on a process.  Get the process running, then get
  5159. back into gdb, say, via a breakpoint.
  5160.  
  5161. 2. Recompile the program being debugged.
  5162.  
  5163. 3. Now go to the gdb process and type "kill".  The kill will hang
  5164. until the process is manually killed from some other window.
  5165.  
  5166. I've been able to make this happen repeatably (in ~ouster/mipsim).
  5167. I suspect that it might be a bug in gdb:  I also noticed that gdb
  5168. is unhappy if you remove the executable being debugged and then try
  5169. to kill from within gdb:  I got the message
  5170.  
  5171. /user1/ouster/mipsim/sun3.md/mipsim: no such file or directory.
  5172.  
  5173.  
  5174.  
  5175. 403.
  5176. Date: Sun, 27 Aug 89 14:01:26 PDT
  5177. From: mgbaker (Mary Gray Baker)
  5178. Subject: bug #225 has disappeared
  5179.  
  5180. I've checked up on the bug I reported about sun3 include paths being used
  5181. by default for sun4 compilations.  It seems to be fixed, at least in all
  5182. the test cases I could think of, so I removed the explicit sun4 include paths
  5183. from the library.mk files, etc.
  5184.  
  5185.  
  5186. 404.
  5187. Date: Sun, 27 Aug 89 18:04:31 PDT
  5188. From: gibson (Garth Gibson)
  5189. Subject: mkdir error message
  5190.  
  5191. The error message generated by "mkdir dirX" in an NFS directory where
  5192. dirX already exists is not very informative:
  5193. *** compat: Invalid message # for Gen module: status = 0x11
  5194. mkdir: submit: invalid argument
  5195.  
  5196.  
  5197. 405.
  5198. Date: Mon, 28 Aug 89 10:32:18 PDT
  5199. From: brent (Brent Welch)
  5200. Subject: Re: Question about file system cache
  5201.  
  5202. If the ld of your sun4 kernel migrated to a different machine
  5203. then the disk full messages probably appeared there.  If you
  5204. checked Oregano's console you may have seen the messages there, too.
  5205.  
  5206. An open will fail if the last writer of the file cannot write it back.
  5207. I think this is the best behavior.   It's better to abort the open
  5208. than to get bad data.  I'm not sure what error code is returned
  5209. in this case, and perhaps that can be fixed.  Even so, I don't
  5210. think too many programs expect a "disk full" error from open().
  5211.  
  5212.  
  5213. 406.
  5214. Date: Mon, 28 Aug 89 10:40:44 PDT
  5215. From: brent (Brent Welch)
  5216. Subject: Re: mkdir error message
  5217.  
  5218. The problem is that nfsmount is returning a UNIX error code
  5219. and then the compatibility library is trying to map it
  5220. from a Sprite to a UNIX code.  I'll take a look at nfsmount.
  5221. Eventually we'll convert back to all-UNIX error codes,
  5222. but don't hold your breath.
  5223.  
  5224.  
  5225. 407.
  5226. Date: Mon, 28 Aug 89 11:34:19 PDT
  5227. From: eklee (Edward K. Lee)
  5228. Subject: screen blanking on ds3100
  5229.  
  5230. screen blanking does not seem to work on the ds3100.
  5231.  
  5232.  
  5233.  
  5234. 408.
  5235. Date: Mon, 28 Aug 89 11:36:41 PDT
  5236. From: Fred Douglis <douglis>
  5237. Subject: Re: screen blanking on ds3100 
  5238.  
  5239. sometimes it does, sometimes it doesn't.  if you're going to be gone
  5240. for a while, run "xgone" to make sure you have a screensaver running.
  5241.  
  5242.  
  5243.  
  5244. 409.
  5245. Date: Mon, 28 Aug 89 11:38:55 PDT
  5246. From: Fred Douglis <douglis>
  5247. Subject: Re: screen blanking on ds3100 
  5248.  
  5249. p.s.  my last note was a bit terse, as i realized after i sent it.
  5250. thanks for the report, and it's certainly something someone should
  5251. look into at some point.  i mentioned xgone as an interim solution,
  5252. which means fixing the screensaver should be done but isn't as high a
  5253. priority as it might otherwise be.
  5254.  
  5255.  
  5256.  
  5257. 410.
  5258. Date: Mon, 28 Aug 89 13:12:23 PDT
  5259. From: Fred Douglis <douglis>
  5260. Subject: another full fs bug
  5261.  
  5262. I was trying to come up with a better test case for the pmake garbling
  5263. bug (one that would demonstrate when the bug is truly fixed).  I made
  5264. the mistake of creating new files, with different $$ process ids,
  5265. instead of reusing the same files.  When /tmp filled up, and fenugreek
  5266. tried to evict something writing to /tmp, the process froze and became
  5267. unkillable.  I wasn't aware that space was a problem, of course, since
  5268. the message went to fenugreek and I was rlogin'ed.  I went to lunch,
  5269. and the problem resolved itself when space was freed.
  5270.  
  5271. What happened here was that the fs callback took place with the
  5272. process locked.  I think I can fix this problem by changing migration
  5273. not to keep the process locked while deencapsulating it, except for
  5274. proc-related operations.
  5275.  
  5276.  
  5277. 411.
  5278. Date: Mon, 28 Aug 89 14:15:41 PDT
  5279. From: Fred Douglis <douglis>
  5280. Subject: Re: access to printer lw608-8 
  5281.  
  5282. Ann,
  5283.  
  5284. Printing from the decstations needs work.  I've found that if I send
  5285. something, it usually complains that the daemon doesn't exist, and if
  5286. I then print something from a sun3 both the file(s) spooled from the
  5287. ds3100 and the new file from the sun3 get printed.  For the time
  5288. being, I'd recommend that you rlogin to a sun3 and print from there.
  5289.  
  5290. Also, please send mail about things on sprite not working to "bugs"
  5291. rather than "root".  They then get automatically filed and indexed
  5292. accordingly.  
  5293.  
  5294.  
  5295. 412.
  5296. Date: Mon, 28 Aug 89 14:53:44 PDT
  5297. From: Fred Douglis <douglis>
  5298. Subject: fs shared offsets race condition
  5299.  
  5300. i just talked to brent some more about the file system migration
  5301. problem.  he's fixed some bugs already and will be testing the fixes
  5302. on murder soon.  but he just came up with another pathological case we
  5303. have to deal with.  consider the following sequence of events:
  5304.  
  5305.  
  5306.     process 1 forks process 2 with shared descriptor
  5307.     descriptor is at offset *
  5308.     processes 1 and 2 are told to migrate
  5309.     process 1 gets signal, starts to be encapsulated
  5310.     process 2 does I/O using shared descriptor, offset **
  5311.     process 2 gets signal, starts to be encapsulated
  5312.     process 2 completes migration
  5313.         other host gets offset ** for descriptor
  5314.     process 1 completes migration
  5315.         other host gets [old] offset * for descriptor
  5316.  
  5317. brent suggested that we might associate a timestamp with each
  5318. encapsulation, so that an earlier offset couldn't overwrite a later
  5319. one. i'm a bit worried that this might affect one symptom without
  5320. curing the whole disease -- the idea of side-effect free, parallel
  5321. encapsulation has me worried.  if anyone has ideas of other
  5322. pathological cases that might arise, please speak up.  the design of
  5323. the fs-migration interaction might warrant some discussion at an
  5324. upcoming meeting.
  5325.  
  5326.  
  5327. 413.
  5328. Date: Mon, 28 Aug 89 15:29:51 PDT
  5329. From: ouster (John Ousterhout)
  5330. Subject: Re: fs shared offsets race condition
  5331.  
  5332. It sounds to me like the problem with shared offsets is that they
  5333. aren't handled at the right time during migration (i.e. there's
  5334. a window of time where the offset is "neither here nor there").
  5335. If an offset is shared, or even "possibly shared", wouldn't it be
  5336. better to have the server take over responsibility for the offset
  5337. at the beginning of migration rather than the end?  Thus Fred's
  5338. scenario would look like this:
  5339.  
  5340.     process 1 forks process 2 with shared descriptor
  5341.     descriptor is at offset *
  5342.     processes 1 and 2 are told to migrate
  5343.     process 1 gets signal, starts to be encapsulated
  5344.         -- during encapsulation, offset becomes shared, so server
  5345.         -- takes over responsbility for it.  Server's offset = *
  5346.     process 2 does I/O using shared descriptor, offset **
  5347.         -- I/O is sent through to server, so server's offset gets
  5348.         -- updated to **
  5349.     process 2 gets signal, starts to be encapsulated
  5350.     process 2 completes migration
  5351.         -- since offset is shared, process 2's new host doesn't
  5352.         -- get offset at all.
  5353.     process 1 completes migration
  5354.         -- same as note above.  In the unlikely even that process 1
  5355.         -- and process 2 are now on the same host again, so that
  5356.         -- the offset is no longer shared, the server could notify
  5357.         -- the client (during de-encapsulation) to cache the offset
  5358.         -- locally.  The server would pass the client the correct
  5359.         -- offset to cache (**).
  5360.  
  5361. Wouldn't this approach eliminate the window of vulnerability?  I share
  5362. Fred's concern that timestamps might solve one symptom while leaving
  5363. other vulnerabilities;  they smell tricky to me.
  5364.  
  5365.  
  5366. 414.
  5367. Date: Mon, 28 Aug 89 16:34:17 PDT
  5368. From: Fred Douglis <douglis>
  5369. Subject: pdev, device deadlocks; kgdb backtracing
  5370.  
  5371. mace got doubly wedged today.  first, from paprika,
  5372.  
  5373.     mig -h mace csh -c "tail -f /dev/null&"
  5374.  
  5375. caused the tail processes on mace to become unkillable, waiting in an
  5376. RPC back to paprika.  i'll debug paprika's end as well, once it's
  5377. available.
  5378.  
  5379. second, mace had an rlogind process waiting for a pdev open because
  5380. the pdev was marked busy.  the rlogind was unkillable. any other
  5381. process trying to open the /hosts/mace/rlogin1 file it got blocked on
  5382. also was wedged and unkillable.
  5383.  
  5384. finally, i couldn't find out that much on mace because kgdb
  5385. backtracing broke: after switching kernel stacks and going up stack
  5386. frames, kgdb got confused and "info reg" produced 
  5387.  
  5388.     ERROR: invalid read address 0x0
  5389.  
  5390. as did any commands to print local variables.
  5391.  
  5392.  
  5393. 415.
  5394. Date: Mon, 28 Aug 89 18:30:56 PDT
  5395. From: gibson (Garth Gibson)
  5396. Subject: Not a sprite bug, but ....
  5397.  
  5398. This is not necessarily a Sprite bug, but Spriters may need to beware.
  5399. I had a file on Unix that I "mx"d on Sprite through NFS.  I changed much
  5400. and increased its length substantially.  I had Mx write it then tried to
  5401. print it on rosemary.  An old version was a bunch of trash at the end
  5402. was printed.  Sprite and other sun unix machines see the correct file,
  5403. but rosemary appears to have suffered a caching problem.  I should
  5404. note that rosemary had been touching the file before and during the Mx
  5405. session and the other unix machines did not touch it until Mx had quit.
  5406. I should also note that I almost never use Mx across NFS (vi for NFS,
  5407. Mx for Sprite - everything in its place).  Rosemary remains confused
  5408. about the file (even after a sync).
  5409.  
  5410.  
  5411. 416.
  5412. Date: Mon, 28 Aug 89 19:30:42 PDT
  5413. From: mgbaker (Mary Gray Baker)
  5414. Subject: Re: Not a sprite bug, but ....
  5415.  
  5416. This problem plagued me frequently while I was doing the sun4 port working
  5417. from rosemary.  You can fix it by moving the file to a new name (on sprite)
  5418. and touching and removing the old file name (from unix) and then moving the
  5419. file back to its old name (from sprite) and then reaccessing it (from unix).
  5420.  
  5421.  
  5422.  
  5423.  
  5424. 417.
  5425. Date: Fri, 1 Sep 89 12:24:40 PDT
  5426. From: eklee (Edward K. Lee)
  5427. Subject: clarification on gremlin bug
  5428.  
  5429. I was running sun3.new on mustard when I discovered the following bug.
  5430. While running gremlin on ~eklee/raid.cont/config.grn, doing a pan (downward in
  5431. this particular instance) gremlin crashed.  Not only did gremlin crash, but
  5432. I lost control of the mouse as well (Mustard was still up).
  5433. Panning does not always cause gremlin to crash, but after you do several pans
  5434. you gradually lose functionallity.  The first thing to go is your snap factor.
  5435. It becomes very large for some reason and you can not get it below a certain
  5436. level.  Next, objects are displaced haphazardly.  Finally, it becomes difficult
  5437. to control the direction and magnitude of panning.
  5438.  
  5439.  
  5440. 418.
  5441. Date: Fri, 1 Sep 89 17:21:53 PDT
  5442. From: mgbaker (Mary Gray Baker)
  5443. Subject: mail bug
  5444.  
  5445. When I responded to John's mail about SYS_MAX_ARGS, using the "r" command,
  5446. the mailer changed the bugs address to the bogus address
  5447.     sprite.berkeley:bugs@edu
  5448.  
  5449. Below is the mailer daemon report.
  5450.  
  5451. >From mgbaker Fri Sep  1 17:11:20 1989
  5452. Received: by sprite.Berkeley.EDU (5.59/1.29)
  5453.     id AA919609; Fri, 1 Sep 89 17:11:17 PDT
  5454. Date: Fri, 1 Sep 89 17:11:17 PDT
  5455. From: MAILER-DAEMON (Mail Delivery Subsystem)
  5456. Subject: Returned mail: Host unknown
  5457. Message-Id: <8909020011.AA919609@sprite.Berkeley.EDU>
  5458. To: mgbaker
  5459. Status: R
  5460.  
  5461.    ----- Transcript of session follows -----
  5462. 550 sprite.berkeley:bugs@edu... Host unknown
  5463.  
  5464.    ----- Unsent message follows -----
  5465. Received: by sprite.Berkeley.EDU (5.59/1.29)
  5466.     id AA919600; Fri, 1 Sep 89 17:11:17 PDT
  5467. Date: Fri, 1 Sep 89 17:11:17 PDT
  5468. From: mgbaker (Mary Gray Baker)
  5469. Message-Id: <8909020011.AA919600@sprite.Berkeley.EDU>
  5470. To: jhh@sprite.Berkeley.EDU, sprite.berkeley:bugs@edu
  5471. Subject: Re: SYS_MAX_ARGS redefined
  5472.  
  5473. Oops.  My fault.  I thought I'd privately defined that one in machConst.h and
  5474. moved it to sysSysCall.h when I started using the ASM stuff.  I'll fix it.
  5475.  
  5476.  
  5477. 419.
  5478. Date: Fri, 1 Sep 89 17:22:48 PDT
  5479. From: brent (Brent Welch)
  5480. Subject: tx killed, csh -i looped
  5481.  
  5482. 2 bugs - I killed tx by running my error stress test for
  5483.     the read system call.  I passed a bad pointer for
  5484.     the read buffer, tx got an error from the pseudo-device
  5485.     code, and exited.  I understand how to make this
  5486.     better - currently the code can't tell if the pseudo-device's
  5487.     request buffer is bad, or the user has a bad buffer;
  5488.     the cross-address space copy just gets a fault and it
  5489.     doesn't know who caused the problem.  I can fix this by
  5490.     added extra code to determine what buffer is bad after
  5491.     the error occurs.
  5492. bug 2 - the csh -i child process of the tx that paniced when into
  5493.     an infinite loop.  I'm not sure what it was doing, but
  5494.     I imagine that this is repeatable.
  5495.  
  5496. Repeat by:
  5497. cd /sprite/src/benchmarks/read
  5498. read -e
  5499. (while running in a tx window, of course)
  5500.  
  5501.  
  5502. 420.
  5503. Date: Fri, 1 Sep 89 18:56:33 PDT
  5504. From: douglis (Fred Douglis)
  5505. Subject: kamikaze l1 key
  5506.  
  5507. i accidentally hit l1-h instead of l1-k, or something like that.  at least,
  5508. the debugger said i was in the state i'd be in had i hit l1-h.  
  5509. unfortunately, that state was "in the debugger with a bus error exception"...
  5510. looks like the routine to dump name hash stats needs to be a little
  5511. more careful. 
  5512.  
  5513. this was repeatable on a sun3 after i killed a ds3100.  kids, don't
  5514. try this at home.
  5515.  
  5516.  
  5517. 421.
  5518. Date: Tue, 5 Sep 89 13:35:04 PDT
  5519. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5520. Subject: X server on ds3100 dies
  5521.  
  5522. My X server frequently dies on the ds3100.  It typically happens right after
  5523. I start it. Sometimes my xclock window starts out huge -- the server always
  5524. dies after this happens, but it also dies if it doesn't happen. The 
  5525. error message always is:
  5526.  
  5527. X Error: request length incorrect; internal Xlib error
  5528.   Request Major code 74 
  5529.   Request Minor code
  5530.   ResourceID 0x200040
  5531.   Error Serial #409
  5532.   Current Serial #422
  5533.  
  5534. This is rather annoying since I have to kill and restart the ipServer each
  5535. time and it takes more attempts to get the X server to stay up than I
  5536. have patience for.
  5537.  
  5538. I have been running kernel version 1.010 and some of my own kernels which
  5539. use the uninstalled sources.
  5540.  
  5541. I don't see any hope of fixing this bug since we don't have the sources,
  5542. but I thought I'd get it recorded for posterity anyway.
  5543.  
  5544.  
  5545. 422.
  5546. Date: Tue, 5 Sep 89 15:16:54 PDT
  5547. From: pmchen (Peter M. Chen)
  5548. Subject: eqn differing behavior for sprite and unix
  5549.  
  5550. One of my ditroff files prints out correctly under unix and not under sprite.
  5551. The difference that I noticed is fractions have overlap between numerator and
  5552. denominator (under sprite).
  5553.  
  5554. The example file is in sprite:~pmchen/amdahl/sigmetrics/paper[12].  This should
  5555. be the same as unix:~pmchen/sig/sigmetrics/paper[12].  To format the file,
  5556.  
  5557. cd to ~pmchen/amdahl/sigmetrics (or ~pmchen/sig/sigmetrics)
  5558.  
  5559. tbl -Ppulla paper* | grn %lw | eqn | ditroff -me %lw -h
  5560.  
  5561. One of the example differences is on page 7, 5 text lines down from the top
  5562. of the page. (N-1/N)
  5563.  
  5564.  
  5565.  
  5566. 423.
  5567. Date: Tue, 05 Sep 89 15:20:01 PDT
  5568. From: Fred Douglis <douglis>
  5569. Subject: problems with IP
  5570.  
  5571. I wasn't able to log in to various unix machines -- for example, I
  5572. could talk to ginger but not dill or rosemary.  I then found I
  5573. couldn't log into mint either, though migrating onto it showed that
  5574. its ipServer was alive.  It turned out there was a finger in the
  5575. debugger and a bootp in an infinite loop.  when i killed them off (I
  5576. couldn't debug using migration), I could get arp responses and
  5577. kvetching could now talk to other hosts, but I still couldn't log into
  5578. mint.  I then noticed that someone was in the process of running
  5579. "restartservers" on mint, and that portmap was now in the debugger.  I
  5580. take it someone else walked over to mint to restart stuff.
  5581.  
  5582.  
  5583. 424.
  5584. Date: Wed, 06 Sep 89 11:07:49 PDT
  5585. From: Fred Douglis <douglis>
  5586. Subject: sld bug
  5587.  
  5588. I tried to reinstall a new pmake without the debugging files, but the
  5589. spur version wouldn't link.  sld complained about the -mspur flag.
  5590.  
  5591.  
  5592.  
  5593. 425.
  5594. Date: Wed, 06 Sep 89 11:50:53 PDT
  5595. From: Fred Douglis <douglis>
  5596. Subject: another kiss of death
  5597.  
  5598. paprika migrated onto, and killed, three hosts in parallel.  fenugreek
  5599. died with a "stack format error" exception.  i'm checking mace now.
  5600. what's more, paprika is acting strangely -- mary tried using a tx "set
  5601. termcap" menu entry and it produced garbage.  I wasn't able to find
  5602. out too much on fenugreek, and am inclined to file this report and
  5603. leave the problem alone unless it repeats.
  5604.  
  5605.  
  5606.  
  5607. 426.
  5608. Date: Wed, 06 Sep 89 12:29:41 PDT
  5609. From: Fred Douglis <douglis>
  5610. Subject: migration problem resolved: floating point problem?
  5611.  
  5612. The problem from before happened during pmakes but not during explicit
  5613. migrations using mig.  Also, it happened just after i installed a new
  5614. sun3 pmake, though I hadn't thought about that when the problem arose.
  5615. i backed out pmake.  must have something to do with programs that use
  5616. hardware floating point.  
  5617.  
  5618.  
  5619.  
  5620. 427.
  5621. Date: Wed, 6 Sep 89 14:44:54 PDT
  5622. From: pmchen (Peter M. Chen)
  5623. Subject: mustard crashed hard
  5624.  
  5625. i was compiling a program in ~pmchen/raid
  5626.  
  5627. cc -g -o multnew multnew.c -lm
  5628.  
  5629. Message was:
  5630.  
  5631. Exception 34 format at 0E007314
  5632.  
  5633.  
  5634.  
  5635. 428.
  5636. Date: Wed, 06 Sep 89 14:52:53 PDT
  5637. From: Fred Douglis <douglis>
  5638. Subject: Re: mustard crashed hard 
  5639.  
  5640. the sun3 cc was just reinstalled last night.  were you doing the cc by
  5641. hand or using pmake, which might have been doing it remotely?  even if
  5642. pmake didn't use the hardware floating point, if cc got migrated away
  5643. and then evicted, it could have crashed your machine.
  5644.  
  5645. i see you rebooted mustard.  next time this happens, please try to
  5646. login elsewhere, or call, to report the bug and give people a chance
  5647. to look into the crash with the debugger.  it's hard to diagnose after
  5648. the fact.
  5649.  
  5650.  
  5651.  
  5652. 429.
  5653. Date: Thu, 7 Sep 89 10:14:52 PDT
  5654. From: ouster (John Ousterhout)
  5655. Subject: Mail return address
  5656.  
  5657. Mail from us is still going out with a return address of
  5658. "ouster%sprite.Berkeley.EDU@ginger.Berkeley.EDU" instead of
  5659. just "ouster@sprite.Berkeley.edu".  Won't the shorter form
  5660. work OK (I've used it from WRL, for example)?  If it works,
  5661. can we change sendmail to use it?
  5662.  
  5663.  
  5664.  
  5665. 430.
  5666. Date: Thu, 7 Sep 89 10:31:22 PDT
  5667. From: brent (Brent Welch)
  5668. Subject: redirection bug?
  5669.  
  5670. The following sequence of commands:
  5671.  
  5672.     rdate %timeServer > /dev/null &
  5673.     echo `date` `sysstat -v|sed -e 's/^Kernel.*1\.0 //' -e 's/) (/ /'` >! /hosts/%host/boottime
  5674.     cat /hosts/%host/boottime >> /hosts/%host/boottimes
  5675.  
  5676. Occasionally puts more into the boottime file that expected:
  5677. >>>>
  5678.  
  5679. [1]    Done                       rdate mint.Berkeley.EDU > /dev/null
  5680. Thu Sep 7 02:22:38 PDT 1989 sage SPRITE VERSION 1.010 (sun3 30 Aug 89 17:20:32)
  5681. <<<<
  5682.  
  5683. There is an extra linefeed (^M) and the job control message,
  5684. as well as the date and kernel stamp generated by the echo.
  5685. This may well be a bug in csh, for all I know.  But the
  5686. csh output regarding the job gets sucked into the standard
  5687. output stream of the next command.
  5688.  
  5689.  
  5690.  
  5691. 431.
  5692. Date: Thu, 07 Sep 89 12:11:07 PDT
  5693. From: Fred Douglis <douglis>
  5694. Subject: migration deadlock 
  5695.  
  5696. paprika wedged last night, and it only came back to life when it
  5697. panicked with a full process queue.  Turns out it did an open of
  5698. /user1, which waited for recovery, and then deadlocked on the process
  5699. itself because the process was locked during the open.  I'll change
  5700. it.  I'm surprised this didn't bite us before (or maybe it did and we
  5701. just didn't know it).
  5702.  
  5703.  
  5704.  
  5705. 432.
  5706. Date: Thu, 7 Sep 89 13:55:45 PDT
  5707. From: douglis (Fred Douglis)
  5708. Subject: allspice rpc wedge
  5709.  
  5710. allspice stopped responding to RPCs.  It could ping other hosts but they
  5711. couldn't ping it.  When I rebooted, I got a bunch of quick messages
  5712. about hosts doing recovery, which implies that the act of shutting down
  5713. killed something that was locking things up.  An rpcstat -srvr showed
  5714. a bunch of wait channels plus a consistently busy channel, with thyme doing
  5715. a remove.
  5716.  
  5717.  
  5718.  
  5719. 433.
  5720. Date: Thu, 7 Sep 89 16:43:34 PDT
  5721. From: shirriff (Ken Shirriff)
  5722. Subject: ipServer problem on mint
  5723.  
  5724. The ipServer went into the debugger with a bus error in CallTimeoutHandler
  5725. line 806.  I couldn't find the source files to debug further.
  5726.  
  5727.  
  5728.  
  5729. 434.
  5730. Date: Thu, 7 Sep 89 18:32:48 PDT
  5731. From: pmchen@basil.berkeley.edu (Peter M. Chen)
  5732. Subject: mustard crashed
  5733.  
  5734. Message was: Entering debugger with a Bus Error exception at PC 0xe06798c
  5735.  
  5736. Message in the syslog window was Fsdm_DomainFetch, bad domain number <341>
  5737.  
  5738. I called Bob about it, he's looking into it.  I need to reboot soon, so
  5739. I'll do that when he's done.
  5740.  
  5741.  
  5742.  
  5743. 435.
  5744. Date: Fri, 08 Sep 89 10:59:31 PDT
  5745. From: Fred Douglis <douglis>
  5746. Subject: need new migration version for sun3s
  5747.  
  5748. The recent change to the machine state caused an incompatibility
  5749. between kernels.  I am going to change migration to pass the size of
  5750. key structures, such as Mach_UserState, to catch this sort of thing in
  5751. the future.  In any case, we need to build new kernels with a
  5752. different migration version.  (I think Bob may have been testing new
  5753. kernels with a different version, but when I built my kernel with the
  5754. uninstalled mach the other day I didn't know to do that.)
  5755.  
  5756.  
  5757.  
  5758. 436.
  5759. Date: Fri, 8 Sep 89 13:13:31 PDT
  5760. From: eklee (Edward K. Lee)
  5761. Subject: pmake could not find non-local include files
  5762.  
  5763. I generated a Makefile after specifying non-local include directories via
  5764. CFLAGS += -I../sim in a local.mk file.
  5765. mkmf was able to find the non-local include files but when I tries to run
  5766. pmake it complained that it does not know how to make the non-local include
  5767. files.
  5768.  
  5769. The program I tries to compile is in ~eklee/raid.sim.
  5770.  
  5771.  
  5772. 437.
  5773. Date: Fri, 8 Sep 89 14:38:41 PDT
  5774. From: shirriff (Ken Shirriff)
  5775. Subject: ipServer bug
  5776.  
  5777. The ipServer crashed on me again.  The problem is timeoutList has
  5778. the list pointer values (1,1) which give a seg fault.  I suspect
  5779. that memory is getting overwritten somewhere and is clobbering
  5780. timeoutList, but I couldn't figure out where this was happening.
  5781.  
  5782.  
  5783.  
  5784. 438.
  5785. Date: Fri, 8 Sep 89 17:01:11 PDT
  5786. From: mgbaker (Mary Gray Baker)
  5787. Subject: printer problem
  5788.  
  5789. I tried printing out some files, and when they seemed to be taking a long
  5790. time I checked the queue.  It said it was waiting for paprika to come up.
  5791. Paprika had been in the debugger for a long time, so I rebooted it.  When
  5792. paprika came up, nothing printed and the queue said it was empty.
  5793.  
  5794.  
  5795.  
  5796. 439.
  5797. Date: Fri, 8 Sep 89 17:37:44 PDT
  5798. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  5799. Subject: sethostid broken
  5800.  
  5801. sethostid is an ultrix binary that is used by the ds3100's during
  5802. boot.  Assault will not boot properly because sethostid dies with
  5803. a bus error.  I was trying to boot ds3100.new. Sethostid works on
  5804. hijack, so there is something special about assault.
  5805.  
  5806.  
  5807.  
  5808. 440.
  5809. Date: Mon, 18 Sep 89 12:18:05 PDT
  5810. From: Fred Douglis <douglis>
  5811. Subject: ds3100 pagein at interrupt level
  5812.  
  5813. Well, I've hit a new bug for the ds3100, though it could explain other
  5814. problems; who knows?  kvetching died with an "interrupt" exception.
  5815. Its pc was in Mach_EnableIntr at the point where it returns after
  5816. enabling interrupts.  It was in an RPC page read at the time, with a
  5817. backtrace going all the way up to:
  5818.  
  5819.   20 Vm_PageIn(virtAddr = 0x10005000, protFault = 0) ["vmPage.c":1523, 0x800cd114]
  5820.   21 .block544 ["jhh.md/vmPmax.c":1465, 0x800d1dec]
  5821.   22 VmMach_TLBFault(virtAddr = 0x10005000) ["jhh.md/vmPmax.c":1465, 0x800d1dec]
  5822.   23 .block13 ["jhh.md/machCode.c":1022, 0x80034644]
  5823.   24 MachKernelExceptionHandler(statusReg = 64560, causeReg = 805314572, badVaddr = 0x10005000, pc = 0x800d2ffc = "") ["jhh.md/machCode.c":1022, 0x80034644]
  5824.   25 Mach_KernGenException(0x800fa298, 0x34, 0xc0109234, 0x2, 0xc054ff54) ["jhh.md/machAsm.s":506, 0x80032854]
  5825.   26 Vm_MachDumpTLB(0x800fa298, 0x34, 0xc0109234, 0x2, 0xc054ff54)
  5826.      ["jhh.md/vmPmaxAsm.s":719, 0x800d2ff8]
  5827.  
  5828. IdleLoop looks like it was trying to panic, because the interrupt
  5829. nesting wasn't 0, but the check I put in Interrupt beat it to it.
  5830. Unfortunately, it never made it to the screen (maybe got buffered for
  5831. my syslog instead), so I didn't know what was going on -- Interrupt
  5832. used printf instead of panic.  Anyway, how do we keep the whole page
  5833. in from being done at interrupt level?  Should it be done in the first
  5834. place if it's because of a TLB flush?
  5835.  
  5836.  
  5837.  
  5838. 441.
  5839. Date: Mon, 18 Sep 89 22:31:44 PDT
  5840. From: mgbaker (Mary Gray Baker)
  5841. Subject: rawstat in the debugger
  5842.  
  5843. Many invocations of the program rawstat seem to pile up in the debugger on
  5844. anise, and tonight when dumping the process table on mint, I noticed rawstat
  5845. was in the debugger there as well.
  5846.  
  5847.  
  5848.  
  5849. 442.
  5850. Date: Tue, 19 Sep 89 11:35:11 PDT
  5851. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  5852. Subject: mint rpc wedge
  5853.  
  5854. mint wedged during recovery again.  This time I got into the debugger and 
  5855. poked around. I found a ton of rpc servers waiting on their BUSY flag
  5856. and the rpc daemon doing an RpcProbe to sage.  Is it possible that
  5857. the daemon is ignoring other RPCs while its RpcProbe is taking place,
  5858. or something?  Anyway, when I wasn't able to find a definite
  5859. cause of the problem, I continued mint, and this time people seemed
  5860. to recover okay. (an aside: assault was shutdown during the interim, so
  5861. if there's anything going on relating to the number of hosts recovering
  5862. simultaneously, that might be relevant.)
  5863.  
  5864. also, sage must be wedged itself.  it recovered with mint only when i typed
  5865. at its console, and even then, i wasn't able to start "ping" when i 
  5866. tried to ping mint from sage.  nor does sage respond to pings, or let
  5867. me ^C out of the ping.  I'm debugging it now.
  5868.  
  5869.  
  5870.  
  5871. 443.
  5872. Date: Tue, 19 Sep 89 12:45:24 PDT
  5873. From: Fred Douglis <douglis>
  5874. Subject: cc bug: rpn won't compile
  5875.  
  5876. I installed a new rpn, with a patch from Andy that fixes the hex
  5877. display problem for large numbers.  However, when I tried to recompile
  5878. for the sun3 to make sure I didn't break anything, I found that cc
  5879. hits a bus error trying to compile src/main.c.  Any cc guru care to
  5880. take a look?
  5881.  
  5882.  
  5883.  
  5884. 444.
  5885. Date: Tue, 19 Sep 89 14:10:22 PDT
  5886. From: Fred Douglis <douglis>
  5887. Subject: disk library won't compile
  5888.  
  5889. c/disk no longer compiles -- complains that kernel/fsDisk.h no longer
  5890. exists.  I looked for kernel/fs*Disk but couldn't find a renamed
  5891. version.  What gives?
  5892.  
  5893.  
  5894.  
  5895. 445.
  5896. Date: Tue, 19 Sep 89 15:36:02 PDT
  5897. From: brent (Brent Welch)
  5898. Subject: Re: fs header file changes
  5899.  
  5900. fsDisk.h is now fsdm.h.  I recently moved all the old versions
  5901. of fs header files in Include to a different place so old code
  5902. that should be fixed won't compile.
  5903.  
  5904.  
  5905.  
  5906. 446.
  5907. Date: Tue, 19 Sep 89 15:57:15 PDT
  5908. From: pmchen (Peter M. Chen)
  5909. Subject: latest crash on raid
  5910.  
  5911. Fatl Error: VmMach_DMAAlloc: unable to satisfy request for 65536 bytes at
  5912. 0xf655c8b8
  5913.  
  5914. This was whe 8 processes each requested 64KB.  The kernel was sun4.md/mgbaker
  5915.  
  5916.   ~pmchen/raid/mult/ex1 /dev/rsvj1 1
  5917.  
  5918. (I was in ~pmchen/raid/mult)
  5919.  
  5920.  
  5921.  
  5922. 447.
  5923. Date: Tue, 19 Sep 89 15:54:46 PDT
  5924. From: shirriff (Ken Shirriff)
  5925. Subject: rcp from decstation hangs
  5926.  
  5927. I tried to copy a kernel from pride (decstation) to dill and the first
  5928. time it stopped after copying 106496 bytes and the second time it
  5929. stopped after copying 270336 bytes.  By stopping I mean the rpc command
  5930. sat there for several minutes and then gave rpc: lost connection.
  5931. I tried the copy from nutmeg (sun3) and all 1929348 bytes were copied
  5932. without problem.
  5933.  
  5934.  
  5935.  
  5936. 448.
  5937. Date: Tue, 19 Sep 89 18:18:39 PDT
  5938. From: brent (Brent Welch)
  5939. Subject: MACH_EXC_BUS_ERR_LD_ST panic
  5940.  
  5941. Apathy crashed on Garth with a panic from MachUserExceptionHandler.
  5942. It got a fault 'cause' of MACH_EXC_BUS_ERR_LD_ST, and panic'd
  5943. with a message: "User bus error on ld or st".  Why is this a panic?
  5944.  
  5945.  
  5946.  
  5947. 449.
  5948. Date: Wed, 20 Sep 89 10:17:34 PDT
  5949. From: gibson (Garth Gibson)
  5950. Subject: what are these "LE ethernet: Received packet with CRC error." messages?
  5951.  
  5952. I've seen them shortly after starting X11 on apathy and just now shortly after
  5953. login to pepper (both ds3100s).  pepper runs FD.029 (CLEANds3100) (19 Sep 89)
  5954.  
  5955.  
  5956.  
  5957. 450.
  5958. Date: Wed, 20 Sep 89 15:59:24 PDT
  5959. From: Fred Douglis <douglis>
  5960. Subject: mkmf change and bug fix
  5961.  
  5962. The implementation of mkmf was different from the documentation.  The
  5963. documentation claims that if ./mkmf.local exists, it will be used, but
  5964. the program actually looked for ./mkmf -- which is a mistake since if
  5965. someone has "." in the path before /sprite/cmds, they'll invoke the
  5966. script without the proper environment variables.  I've changed mkmf.
  5967. If anyone was relying on the broken behavior, and had a "mkmf" script
  5968. instead of "mkmf.local", they should change it.  
  5969.  
  5970.  
  5971.  
  5972. 451.
  5973. Date: Thu, 21 Sep 89 12:18:19 PDT
  5974. From: pmchen (Peter M. Chen)
  5975. Subject: raid crash
  5976.  
  5977. I crashed raid by running 16 concurrent processes, each asking for 512 bytes.
  5978. Actually, I think only 6 of them got started running.  Only 6 * 512 bytes should
  5979. easily fit in the DVMA space, yes?  Nothing came out on the /dev/syslog, and
  5980. I'm not at the console to look, but I'll ask Ken (or whoever) to look at the
  5981. console when he gets in and send you the message.
  5982.  
  5983. Ed remembered that the requests are aligned on some large boundary (128K?)
  5984. to avoid some of the cache flushing problems.  What happens if alignment
  5985. is not possible?
  5986.  
  5987.  
  5988.  
  5989. 452.
  5990. Date: Wed, 20 Sep 89 16:31:17 PDT
  5991. From: Fred Douglis <douglis>
  5992. Subject: mkmf bigcmdtop bug
  5993.  
  5994. If you say mkmf at the top level before running mkmf in the
  5995. subdirectories, it tries to make depend and complains that */Makefile
  5996. doesn't exist.
  5997.  
  5998.  
  5999.  
  6000. 453.
  6001. Date: Wed, 20 Sep 89 16:46:56 PDT
  6002. From: brent (Brent Welch)
  6003. Subject: hung gdb
  6004.  
  6005. There is a hung gdb process on sage.  I quit gdb while the
  6006. program was at a breakpoint.  The program was not continued
  6007. by gdb, and it hung.  I'm leaving it in the current state,
  6008. and I'm even willing to let someone debug sage (ask first!)
  6009. if they need to.  I was able to suspend gdb and put it
  6010. into the background, and I could probably kill it too.
  6011. However, it shouldn't behave this way so it would be great
  6012. if someone took a look at it.
  6013.  
  6014.  
  6015.  
  6016. 454.
  6017. Date: Thu, 21 Sep 89 09:46:17 PDT
  6018. From: ouster (John Ousterhout)
  6019. Subject: Another trashed file
  6020.  
  6021. The file ~ouster/162/notes/t05 has become corrupted sometime
  6022. between January 6 and today:  the end of the file is a bunch
  6023. of control characters (perhaps some machine code?) preceded by
  6024. the following characters:
  6025.  
  6026. openOpen file %s
  6027. lseekreadError 0x%x from Proc_SetPriority
  6028. seek time %4d.%-03d
  6029. seek and read to 0x%x time %4d.%-03d
  6030.  
  6031. I moved this file to /user1/trashed.
  6032.  
  6033.  
  6034.  
  6035. 455.
  6036. Date: Thu, 21 Sep 89 11:02:51 PDT
  6037. From: Fred Douglis <douglis>
  6038. Subject: cc1.68k optimization bug
  6039.  
  6040. cc1.68k goes into the debugger trying to compile
  6041. /a/newcmds/ixgraph/src/xgraph.c.  This file compiles okay on the
  6042. ds3100 and also compiles okay when optimization is disabled.  
  6043.  
  6044.  
  6045.  
  6046. 456.
  6047. Date: Thu, 21 Sep 89 12:08:01 PDT
  6048. From: brent (Brent Welch)
  6049. Subject: recovery trashed file
  6050.  
  6051. I caught a file getting corrupted after recovery.
  6052. I was generating data to a file when oregano crashed.
  6053. The last block ended up having data from a temporary .s file.
  6054. There was 2640 bytes in the 4th block, and they were
  6055. all from the wrong file.  I suspect that the output file was
  6056. caught in the middle of growing a fragment (from 2K to 3K)
  6057. and the cache didn't get written out properly when
  6058. Oregano crashed.  I'm pretty sure the file was not being
  6059. cached on the clients because I was generating it at
  6060. sloth and I had just looked at it on sage.  I'll go
  6061. scan the cache code to see if UpgradeFragment is vulnerable.
  6062.     brent
  6063. ps. Oregano crashed with the known bug in (sun3) 1.022
  6064. hmm... the bug only happens when the cache is full too.
  6065. the plot thickens.
  6066.  
  6067.  
  6068. 457.
  6069. Date: Thu, 21 Sep 89 12:11:11 PDT
  6070. From: pmchen (Peter M. Chen)
  6071. Subject: oregano crash--netroute
  6072.  
  6073. After the oregano crash this morning, I had to manually run
  6074. netroute -s -f /etc/spritehosts
  6075.  
  6076. in order to have raid know about oregano.  Can this be put in oregano's
  6077. bootup script?
  6078.  
  6079.  
  6080.  
  6081. 458.
  6082. Date: Thu, 21 Sep 89 13:47:14 PDT
  6083. From: brent (Brent Welch)
  6084. Subject: Re: recovery trashed file
  6085.  
  6086. I'm pretty sure my hunch is right.  UpgradeFragment
  6087. is in charge of finding a larger fragment for a cache block
  6088. that is growing in size from 1K to 2K, 2K to 3K, etc.
  6089. It does this by fetching the cache block containing the
  6090. previous version of the fragment (allocation happens
  6091. before the write), changing the file descriptor's
  6092. indexing structure, and then unlocking the cache block
  6093. while assigning it to the new disk location.
  6094. The order of these last two steps is wrong, I think,
  6095. especially because the operation that shifts the
  6096. cache blocks disk address puts it on the dirty list,
  6097. but it might wait if the old version of the block
  6098. is undergoing I/O.  Thus, the scenario of Oregano's
  6099. crash (due to a stupid coding mistake of mine that only showed
  6100. up when the cache was full...) is that the file descriptor
  6101. was modified to refer to the new location, but the
  6102. cache block was held up, and it never got onto the 
  6103. dirty list (again) with a new disk address associated with it.
  6104. Et voila, when Oregano rebooted the file descriptor
  6105. referenced the wrong fragment.
  6106.  
  6107. I've simply re-ordered the operations in UpgradeFrament
  6108. so it unlocks the cache block first, and then updates
  6109. the file descriptor.  Thus the worst case is that
  6110. the cache block gets sucessully re-assigned to a new
  6111. block, but the file descriptor doesn't get updated.
  6112. Oh, it is already true that the old fragment is
  6113. free'd at the very end, and that seem's ok.
  6114.  
  6115. The fix for this is in fsdm, and I've got a new sun3.md/brent
  6116. kernel that has this fix, plus a fix in fscache that
  6117. caused Oregano to crash in the first place.  All hosts
  6118. that run the newly installed .new kernel are vulnerable
  6119. to the Bus Error causing bug that is now fixed in fscache.
  6120. I'll probably make a new .new kernel with the fix.
  6121.  
  6122.  
  6123.  
  6124. 459.
  6125. Date: Thu, 21 Sep 89 19:53:12 PDT
  6126. From: Fred Douglis <douglis>
  6127. Subject: Re: MACH_EXC_BUS_ERR_LD_ST panic 
  6128.  
  6129.     Apathy crashed on Garth with a panic from MachUserExceptionHandler.
  6130.     It got a fault 'cause' of MACH_EXC_BUS_ERR_LD_ST, and panic'd
  6131.     with a message: "User bus error on ld or st".  Why is this a panic?
  6132.  
  6133. The uninstalled mach now kills the user process instead, since I
  6134. couldn't see any reason for the panic either.  Don't think this has
  6135. made it into a new kernel yet, though.
  6136.  
  6137.  
  6138.  
  6139. 460.
  6140. Date: Thu, 21 Sep 89 18:02:24 PDT
  6141. From: arc%sgi.sgi.com@sgi.sgi.com (Andrew Cherenson)
  6142. Subject: rcsinfo/rcstell missing?
  6143.  
  6144. On allspice, rcsinfo & rcstell are missing from /sprite/cmds.
  6145.  
  6146.  
  6147.  
  6148. 461.
  6149. Date: Sat, 23 Sep 89 23:57:33 PDT
  6150. From: tve (Thorsten von Eicken)
  6151. Subject: help: allspice:/mic seems pretty corrupted
  6152.  
  6153. I get directories which contain pieces of files and an fscheck
  6154. (I did: fscheck -dev rsd10 -part c)
  6155. shows tons of "File nnnnn contains duplicate block nnnnn.".
  6156. HELP! Can someone see what's bad?
  6157.  
  6158. I suppose the disk will have to be reinitialized... please try to keep
  6159. "/mic/tve" (except for /mic/tve/src/ftp, which is also corrupted...)
  6160.  
  6161. Thanks,
  6162.     Thorsten
  6163. NB: is there a way to thoroughly test the disk?
  6164.  
  6165.  
  6166.  
  6167. 462.
  6168. Date: Sat, 23 Sep 89 17:26:55 PDT
  6169. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  6170. Subject: mint crash
  6171.  
  6172. Mint died in FslclLookup because a handle wasn't locked.  I am logged in from
  6173. home so I can't debug too well (no scrollbars :)... but I did see that the
  6174. name it was trying to open was "./../" if that means anything.  Do we
  6175. have kgcore on unix?  Might be nice to have if not....
  6176.  
  6177.  
  6178.  
  6179. 463.
  6180. Date: Sun, 24 Sep 89 19:10:46 PDT
  6181. From: mgbaker (Mary Gray Baker)
  6182. Subject: Re: help: allspice:/mic seems pretty corrupted
  6183.  
  6184. This is the same problem we saw before when Martha Zimet first copied
  6185. a bunch of new files onto allspice.  Are the files actually corrupted,
  6186. or did you just get a ton of messages from fscheck?  If I remember
  6187. correctly, last time no action was necessary because the files weren't
  6188. actually corrupted.  Some count just wasn't correct and fscheck thought
  6189. things were unhappy.
  6190.  
  6191.  
  6192.  
  6193. 464.
  6194. Date: Mon, 25 Sep 89 08:26:37 PDT
  6195. From: ouster (John Ousterhout)
  6196. Subject: Re: /dev/tty bug (was Re: anonymous ftp problem)
  6197.  
  6198. Removing a bogus /dev/tty is good for now, but I suspect that
  6199. it's there because there's a program around somewhere that opens
  6200. /dev/tty in create mode.  If this hunch is right, /dev/tty is
  6201. going to keep re-appearing until we find the program and change
  6202. it not to create /dev/tty.
  6203.  
  6204.  
  6205.  
  6206. 465.
  6207. Date: Mon, 25 Sep 89 09:08:27 PDT
  6208. From: rab (Robert A. Bruce)
  6209. Subject: piquante
  6210.  
  6211. Piquante is in the debugger with a coprocessor unusable exception.
  6212.  
  6213. MachKernelExceptionHandler:  Coprocessor unusable
  6214. Entering debugger with a Coprocessor unusable exception at PC 0x800c108c
  6215.  
  6216.  
  6217.  
  6218. 466.
  6219. Date: Mon, 25 Sep 89 14:25:09 PDT
  6220. From: ouster (John Ousterhout)
  6221. Subject: Sendmail died
  6222.  
  6223. Sendmail went into the debugger on Mace.  Anyone interested in
  6224. looking at it?  I'm leaving the corpse around.
  6225.  
  6226.  
  6227.  
  6228. 467.
  6229. Date: Mon, 25 Sep 89 17:05:32 PDT
  6230. From: Fred Douglis <douglis>
  6231. Subject: update for ds3100
  6232.  
  6233. ds3100 update is an old binary.  it won't compile under sprite (the installed
  6234. version must have come from WRL), and it doesn't work running on a
  6235. ds3100 for ds3100-based files.  "update ~brent/postrawstats ~/..."
  6236. created a directory but didn't copy any files.  running on a sun3
  6237. worked fine.
  6238.  
  6239. the problems relate to N_TXTOFF and similar incompatibilities.
  6240.  
  6241.  
  6242.  
  6243.  
  6244. 468.
  6245. Date: Mon, 25 Sep 89 20:07:36 PDT
  6246. From: mgbaker (Mary Gray Baker)
  6247. Subject: something funny with recovery
  6248.  
  6249. I came back from aerobics once again to find the machines in a strange state.
  6250. It appeared that allspice had been rebooted twice.  The first time, fenugreek
  6251. went through recovery.  Then, according to fenugreek's syslog, there was a hung
  6252. rpc echo to allspice.  Then allspice rebooted again, but fenugreek didn't get
  6253. recovery.
  6254.  
  6255. I went up to allspice, and it thought it was quite happy.  I rpc ping'd
  6256. fenugreek and some other machines, and they responded.  After about 5 minutes,
  6257. and a few ls's and such, all of a sudden a whole bunch of machines went
  6258. through recovery, including fenugreek.  But fenugreek's window system was
  6259. still frozen.  I finally rebooted fenugreek with the new kernel.
  6260.  
  6261.  
  6262.  
  6263. 469.
  6264. Date: Tue, 26 Sep 89 07:12:45 PDT
  6265. From: brent (Brent Welch)
  6266. Subject: Re: something funny with recovery
  6267.  
  6268. Two things.  First, Allspice crashed with a "non-aligned" read.
  6269. It printed a message about a 1024 byte read at about 16K and
  6270. then hung.  This happened while I was rebooting mint with the
  6271. new .new kernel last night.  Being in a hurry I just tried to
  6272. reboot allspice, and then realized I hadn't installed dev,
  6273. so it didn't see its new disk.  I left allspice in single-user
  6274. mode while I installed dev using mint.  I then rebooted allspice.
  6275. Anyway, that fenugreek didn't recover correctly is still a bug.
  6276. There have been a few cases recently where machines don't seem
  6277. to be pinging a server, so I'll look into it.  Most machines
  6278. seemed to recover ok.  It was rather stressful on the system
  6279. because I rebooted assault, then mint, then allspice.  Perhaps
  6280. a pagefault was waiting on recovery and somehow blocked enough
  6281. things to prevent pinging.  If both page faults and pinging
  6282. are handled with Proc_CallFunc(), then this may be the problem.
  6283. The proc_ServerProc's may be all used up waiting to page something in.
  6284.  
  6285.  
  6286.  
  6287. 470.
  6288. Date: Tue, 26 Sep 89 10:11:23 PDT
  6289. From: Fred Douglis <douglis>
  6290. Subject: allspice chucked my files
  6291.  
  6292. Something very strange happened yesterday.  My directory apparently
  6293. got reverted to an older version.  I had done an update from one
  6294. directory into another, on /user1.  I edited in that directory for an
  6295. hour or two and then left.  Allspice rebooted various times.  This
  6296. morning, my files were all as they were before I'd edited them, and
  6297. the backup copies created by emacs didn't exist.  My interpretation of
  6298. this is that the directory was somehow reverted, so the inodes in the
  6299. directory that pointed to backup versions were still valid under their
  6300. original names.  The one file I'd edited on two different machines was
  6301. intact, however.  That is, I did a lot of work on kvetching, then some
  6302. work in the same directory a moment later on paprika, then eventually
  6303. back to kvetching.  
  6304.  
  6305. I recommend that people look through /user1/lost+found to make sure
  6306. nothing of theirs is missing.
  6307.  
  6308.  
  6309.  
  6310. 471.
  6311. Date: Tue, 26 Sep 89 11:08:37 PDT
  6312. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6313. Subject: update won't compile
  6314.  
  6315. Update will not compile for the ds3100's.  The existing update does not
  6316. work right when run on a ds3100 when the files are on a ds3100 file server.
  6317. I think the problems are due to Mike's changes to the a.out.h macros
  6318. (N_TXTOFF and others).  I will add this fix to my queue but want it
  6319. recorded in case I forget.
  6320.  
  6321.  
  6322.  
  6323. 472.
  6324. Date: Tue, 26 Sep 89 12:07:28 PDT
  6325. From: Fred Douglis <douglis>
  6326. Subject: vm recovery problem
  6327.  
  6328. i've started to get a clue about why various machines are wedging
  6329. after allspice reboots.  paprika was also wedged this morning.  when i
  6330. debugged it, i found a lot of processes waiting on the vm monitor
  6331. lock, but the lock wasn't held.  i poked around but couldn't find an
  6332. explanation, so i finally continued the machine.  surprisingly, it
  6333. came out of its stupor, but only enough to complain about I/O errors
  6334. in Fs_Dispatch, failed recovery with allspice, and finally a negative
  6335. reference count on closing the swap file  for one of the processes
  6336. that bought it on a page-in error.
  6337.  
  6338.  
  6339.  
  6340. 473.
  6341. Date: Wed, 27 Sep 89 15:30:43 PDT
  6342. From: Fred Douglis <douglis>
  6343. Subject: restarting system calls from migration
  6344.  
  6345. The migration database got locked again, and this time I was able to
  6346. poke around while it was still locked.  Turns out what's happening is
  6347. a result of a change I made a few weeks ago to try to make migration
  6348. transparent.  Just as Fs_Read is really a C routine that makes a
  6349. system call in a loop in case of interrupts, Fs_IOControl was changed
  6350. to do this as well.  That's because there were programs that would die
  6351. because they got migrated during an ioctl and they got back an EINTR
  6352. result they weren't expecting. On the other hand, it turns out that
  6353. retrying ioctls that one would normally expect to abort (because of a
  6354. real signal rather than a migration pseudo-signal) causes problems.
  6355. For example, loadavg ends up retrying a blocking flock even after its
  6356. alarm goes off, thereby sleeping forever.  
  6357.  
  6358. So, what to do?  I suppose there's no easy way for user-level routines
  6359. to find out what signal caused a system call to abort.  I could
  6360. special case migration by returning a different return status, which
  6361. would be a pain, or I could add a system call to determine the last
  6362. signal delivered, which would also be a pain.  Any better ideas?  This
  6363. sort of issue has come up before, with respect to things like sigpause
  6364. (a process blocks everything and thinks nothing that it can live
  6365. through can cause it to get signalled -- KILL & such would blow it
  6366. away -- and then migration causes it to get signalled.  In that case,
  6367. I could see what signal was pending for it and return a
  6368. GEN_ABORTED_BY_SIGNAL when the only signal was migration-related; then
  6369. the user-level routine would know to try again.   A more general
  6370. solution would certainly be preferable.
  6371.  
  6372.  
  6373.  
  6374. 474.
  6375. Date: Tue, 26 Sep 89 18:23:44 PDT
  6376. From: brent (Brent Welch)
  6377. Subject: Blocks => sector mapping broken
  6378.  
  6379. The mapping from blocks to sectors is broken with the
  6380. -scsi option to fscheck.  It turns out that the mapping
  6381. from file system blocks to disk sectors
  6382. assumes that "rotational sets" completely take up a whole
  6383. number of tracks.  With the -scsi option to fscheck this isn't true,
  6384. so the calculation of the 'firstSector' variable in
  6385. the DiskBlock I/O routines is broken.  We were just lucky
  6386. with the other disks, and we weren't lucky with this one.
  6387. With different geometries the bug will either overlap
  6388. the rotational sets or it will separate them by some
  6389. sectors.  Obviously we are overlapping them in this case.
  6390. (rotational sets are groupings of blocks where each block
  6391. has a different rotational offset.  The idea is/was to pack
  6392. blocks onto sectors and get a skewed location between blokcs
  6393. on different tracks, sort of like a brick wall where the
  6394. ends of bricks on different layers don't line up.  Each cylinder
  6395. is divided into a number of rotational sets.)
  6396.  
  6397. Here is the (broken) mapping:
  6398.     firstSector = geoPtr->sectorsPerTrack * geoPtr->numHeads *
  6399.               cylinder +
  6400.   /* wrong */          geoPtr->sectorsPerTrack * geoPtr->tracksPerRotSet *
  6401.               rotationalSet +
  6402.               geoPtr->blockOffset[blockNumber];
  6403.  
  6404. I'm not sure of the best way to fix this.  Adding a
  6405. sectorsPerRotSet to the Fs_Geometry structure would be best.
  6406. However, this will be painful because the Fs_Geometry is written on
  6407. the disk.  We could write a utility that munges our headers
  6408. to conform to a new Fs_Geometry structure, but that sounds
  6409. rather exciting.  Alternatively we could pitch the notion of
  6410. rotational sets altogether, but again we have the problem of
  6411. all our current disks built on the old mapping.  Another approach
  6412. would be to detect this situation and use a different mapping.
  6413. The bad situation occurs when
  6414.     geoPtr->sectorsPerTrack * geoPtr->tracksPerRotSet <
  6415.     DISK_SECTORS_PER_BLOCK * geoPtr->blocksPerRotSet
  6416.  
  6417. For example, the Wren IV disks on Oregano have:
  6418.     sectorsPerTrack 46
  6419.     blocksPerRotSet 17
  6420.     tracksPerRotSet 3
  6421.     tracksPerCyl    9
  6422.  
  6423.     each RotSet is allocated 46 * 3 sectors, or 138,
  6424.     and 17 blocks takes up 8 * 17 sectors, or 136.
  6425.     So there are two (wasted) sectors after each rotational set, 6 wasted in all
  6426.  
  6427. However, with the Wren VI disk on Allspice:
  6428.     sectorsPerTrack 53
  6429.     blocksPerRotSet 11
  6430.     tracksPerRotSet 1    (!!!)
  6431.     tracksPerCyl    15
  6432.  
  6433.     each RotSet is allocated 53 * 1 sectors, or 53
  6434.     but 11 blocks takes up 88 sectors....
  6435.  
  6436. Finally, if the -noscsi option to fsmake is specified then my
  6437. original logic will correctly fit the rotational sets onto
  6438. whole numbers of tracks, but there might be more wasted sectors.
  6439. I can't log into Allspice to see how much would be wasted because
  6440. its login is in the debugger, and all attempts to rlogin suffer
  6441. the same fate.
  6442.  
  6443.  
  6444.  
  6445. 475.
  6446. Date: Tue, 26 Sep 89 21:21:43 PDT
  6447. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6448. Subject: gdb on sun4 broken
  6449.  
  6450. I was running gdb on allspice and was unable to step after I hit a
  6451. breakpoint. I was running version 2.7?  (is this needed anymore?) of
  6452. gdb.
  6453.  
  6454.  
  6455.  
  6456. 476.
  6457. Date: Wed, 27 Sep 89 12:05:00 PDT
  6458. From: pmchen (Peter M. Chen)
  6459. Subject: error from ls
  6460.  
  6461. mustard% ls
  6462. *** compat: Cannot decode user status value 0xffffffff
  6463. 262/        cmds/        leslie/        raid/        tmps
  6464. 80col        cmds.sun3/    library/    reminders    tt*
  6465. News/        conferences/    mail/        simul/        verses/
  6466. amdahl/        dead.article    me@        spritereport    viv/
  6467. bin/        dead.letter    misc/        talks/        writeups/
  6468. c3/        donna/        notes/        tapes/        xtroff/
  6469. calendar    info/        perf/        tmp/
  6470.  
  6471. I also had problems logging in from envy last night (and it didn't respond
  6472. to pings).  If you want to look at it, feel free (I'm going to be gone 'til
  6473. 1:00pm).  I'm going to reboot it at 1pm, though.
  6474.  
  6475. Here's a look at the syslog:
  6476.  
  6477. Broadcasting for server of "/sprite/src/kernel"
  6478. RPC srvr 62c2c
  6479. RPC srvr 62c2e
  6480. Broadcasting for server of "/user2"
  6481. RPC srvr 92c32
  6482. Broadcasting for server of "/spur2"
  6483. RpcDoCall: <stat> RPC to oregano is hung
  6484. <getIOAttr> 9/26/89 20:13:27 lust (1) RPC timed-out
  6485. Fsrmt_GetIOAttr failed <30002>: device <0,0> at server 1
  6486. 9/26/89 22:36:13 anise (49) rebooted
  6487. <stat> RPC exit 0xffffffff
  6488. Broadcasting for server of "/sprite2"
  6489. 9/27/89 10:39:08 lust (1) rebooted
  6490. 9/27/89 10:40:43 anise (49) rebooted
  6491. 9/27/89 11:23:49 kvetching (2) rebooted
  6492. 9/27/89 11:34:55 lust (1) rebooted
  6493.  
  6494.  
  6495.  
  6496. 477.
  6497. Date: Wed, 27 Sep 89 12:10:10 PDT
  6498. From: Fred Douglis <douglis>
  6499. Subject: Re: error from ls 
  6500.  
  6501. the hung rpc was because oregano's ipServer went into the debugger.  I
  6502. killed it and restarted oregano's daemons late last night.  When it
  6503. came back, things weren't quite right: I didn't recover /sprite2, and
  6504. I got -1 status values (0xffffffff) for the things in progress at the
  6505. time I killed the ipServer.  I then killed and restarted the mount of
  6506. /sprite2 by hand and things worked better.  I didn't file a bug report
  6507. on this because it seemed like the same problem Thorsten had recently
  6508. when he couldn't reach an NFS disk, though perhaps this is a different
  6509. problem after all.
  6510.  
  6511.  
  6512.  
  6513. 478.
  6514. Date: Wed, 27 Sep 89 16:25:40 PDT
  6515. From: Fred Douglis <douglis>
  6516. Subject: exec bug: trashing memory
  6517.  
  6518. Thorsten repeatedly crashed his machine by accidentally invoking a
  6519. shell script that called itself recursively with more args every time.
  6520. This is on my to-do list, but I wanted to file the bug report to make
  6521. sure I don't lose it and that no one else wastes time tracking down
  6522. the bug. 
  6523.  
  6524.  
  6525.  
  6526.  
  6527. 479.
  6528. Date: Wed, 27 Sep 89 17:31:44 PDT
  6529. From: pmchen (Peter M. Chen)
  6530. Subject: mail screwed up
  6531.  
  6532. I'm having trouble mailing things out (they go out with a null message body).
  6533. The message I was going to send was about pmake errors.
  6534.  
  6535.  
  6536.  
  6537.  
  6538. 480.
  6539. Date: Wed, 27 Sep 89 17:32:30 PDT
  6540. From: pmchen (Peter M. Chen)
  6541. Subject: rest of message
  6542.  
  6543. FsrmtDeviceMigrate, server error <40012>
  6544. Warning: ProcMigReceiveProcess: error returned by deencapsulation procedure Fs_DeencapFileState:
  6545.     the file handle is out of date.
  6546. FsrmtDeviceMigrate, server error <40012>
  6547. Warning: ProcMigReceiveProcess: error returned by deencapsulation procedure Fs_DeencapFileState:
  6548.  
  6549. >> are some of the error messages I got.  Also, make seems to be hanging.  A
  6550. couple hours ago, make didn't return at all (no error messages).  Now, it
  6551. gives the following errors:
  6552. "/sprite/lib/pmake/command.mk", line 383: Warning: Malformed conditional (!empty(DISTDIR))
  6553. "Makefile", line 33: #if-less #else
  6554. "/sprite/lib/pmake/command.mk", line 214: Warning: Extra command line for "MAKECMD" ignored
  6555. "/sprite/lib/pmake/command.mk", line 215: Warning: Extra command line for "MAKECMD" ignored
  6556.  
  6557. "/sprite/lib/pmake/command.mk", line 392: #if-less #endif
  6558.  
  6559.  
  6560.  
  6561. 481.
  6562. Date: Wed, 27 Sep 89 18:47:59 PDT
  6563. From: shirriff (Ken Shirriff)
  6564. Subject: mint ipServer hangs / gdb is useless
  6565.  
  6566. The ipServer on mint went into the debugger again.  The stack trace is
  6567. status.go
  6568. CvtFtoA( bunch of junk )
  6569. Mem_PrintStatsInt
  6570. I tried to debug Mem_PrintStatsInt, but every time I tried to examine
  6571. the variable "i", gdb went into the debugger, so I gave up.
  6572. If anyone wants more details, it's on the console.
  6573.  
  6574.  
  6575.  
  6576. 482.
  6577. Date: Thu, 28 Sep 89 10:44:36 PDT
  6578. From: douglis (Fred Douglis)
  6579. Subject: ds3100 bug: mem_free
  6580.  
  6581. kvetching crashed hard with a Mem_Free storage block already free -- wouldn't
  6582. respond to the debugger though it said it entered it okay.  if anyone else
  6583. sees this please let me know.
  6584.  
  6585.  
  6586.  
  6587.  
  6588. 483.
  6589. Date: Thu, 28 Sep 89 11:43:58 PDT
  6590. From: Fred Douglis <douglis>
  6591. Subject: ds3100 X status
  6592.  
  6593. I couldn't find anything that has changed in the past day or so, but
  6594. nevertheless, X is suddenly broken.  However, /ultrix/cmds/Xcfb.new
  6595. works for me though Xcfb does not.  Furthermore, its fonts are set up
  6596. ok for the DEC fonts, though not for the MIT-compatible fonts (which
  6597. are in their own directory with a different fonts.dir file that is
  6598. compatible with the old format).  Also, Xcfb still isn't giving me
  6599. color.
  6600.  
  6601.  
  6602.  
  6603.  
  6604. 484.
  6605. Date: Thu, 28 Sep 89 12:25:12 PDT
  6606. From: gibson (Garth Gibson)
  6607. Subject: "ar" across NFS
  6608.  
  6609. on basil (SPRITE VERSION 1.010 (sun3) (30 Aug 89 17:20:32))
  6610. in /spur/gibson/Csim
  6611. I execute "ar q sun3.md/csim.a sun3.md/*.o"
  6612. and it seems to hang (or at least make no real progress)
  6613. for minutes
  6614. if instead I do "ar q ~/csim.a sun3.md/*.o"
  6615. it works nearly instantly
  6616.  
  6617. why should ar hang when the object is across NFS ?
  6618.  
  6619. Actually, I think it is the "q" argument (quickly append).  If instead I do
  6620. "ar r sun3.md/csim.a sun3.md/*.o"
  6621. it runs in about 15 seconds even over NFS
  6622.  
  6623.  
  6624.  
  6625. 485.
  6626. Date: Thu, 28 Sep 89 13:08:14 PDT
  6627. From: douglis (Fred Douglis)
  6628. Subject: xkill kills X?fb.new
  6629.  
  6630. I used xkill and got a segmentation violation in Xcfb.new.  Since
  6631. we don't have sources, I don't think there's much I can do.  Whoopie!
  6632.  
  6633.  
  6634.  
  6635. 486.
  6636. Date: Fri, 29 Sep 89 10:46:29 PDT
  6637. From: ouster (John Ousterhout)
  6638. Subject: Out of space?
  6639.  
  6640. I'm getting the following message in my syslog window, over and over:
  6641.  
  6642. 9/29/89 10:45:40 allspice (14) RmtFile "mbox" <2,64776> Write-back failed: out of disk space
  6643.  
  6644. But when I do a "df" there appears to be plenty of space on /user1.
  6645.  
  6646.  
  6647.  
  6648. 487.
  6649. Date: Fri, 29 Sep 89 11:12:54 PDT
  6650. From: Fred Douglis <douglis>
  6651. Subject: Re: wall 
  6652.  
  6653. i reported a bug a few weeks ago that there are hung rlogind processes
  6654. that cause opens of /hosts/*/rlogin* to sometimes get hung.  the wall
  6655. process never gets past the open.  the file system has to handle hung
  6656. pdevs a little better, i guess.
  6657.  
  6658. i think as a temporary measure i will change wall to do all the
  6659. syslogs first, then go back and do the rlogin pdev files afterwards.
  6660. maybe eventually it can fork a child that may or may not finish and
  6661. time out, but it would be better to fix the problem in the kernel
  6662. instead. 
  6663.  
  6664.  
  6665.  
  6666. 488.
  6667. Date: Fri, 29 Sep 89 15:43:25 PDT
  6668. From: tve (Thorsten von Eicken)
  6669. Subject: /sprite/* aren't group sprite...
  6670.  
  6671. It would certainly help if they were...
  6672.  
  6673.  
  6674.  
  6675. 489.
  6676. Date: Fri, 29 Sep 89 16:51:32 PDT
  6677. From: douglis@ginger.berkeley.edu (Fred Douglis)
  6678. Subject: mint deadlock
  6679.  
  6680. after allspice wedged and was rebooted, it was mint's turn.  no one could
  6681. log in because access to /sprite/admin/lastLog was hung due to cache
  6682. consistency.  a single process was actually in the middle of an rpc to
  6683. parsley, but parsley wasn't usable. parsley responded to pings.  seems the
  6684. timeout for client cache consistency didn't kick in, or something.  brent:
  6685. what happens if a client just decides to hang the call to start the consistency?
  6686. I presume the timeout only starts once the rpc has finished and you're
  6687. awaiting a callback from the client.
  6688.  
  6689. parsley is in the debugger and i'll try to poke around once mint comes back,
  6690. assuming i can login to my own machine successfully for a change.
  6691.  
  6692.  
  6693.  
  6694.  
  6695. 490.
  6696. Date: Fri, 29 Sep 89 17:44:02 PDT
  6697. From: Fred Douglis <douglis>
  6698. Subject: more on cache callback problems
  6699.  
  6700. assault ran into the same problem -- it locked up ~douglis/.emacs.  i
  6701. debugged it and found it was in the middle of an rpc to hijack.
  6702. hijack was actually not responding to rpc pings, and ken said it was
  6703. continually printing the same statement to its syslog (this bug goes
  6704. way back, eh?).   when hijack rebooted and assault was continued,
  6705. things got back to normal.  
  6706.  
  6707.  
  6708.  
  6709. 491.
  6710. Date: Sat, 30 Sep 89 01:18:11 PDT
  6711. From: tve (Thorsten von Eicken)
  6712. Subject: makedepend -p not used in mkmf
  6713.  
  6714. Why doesn't mkmf use the "-p" flag of makedepend? I run into trouble with
  6715. that when I run pmake: it complains "Can't figure out how to make foo.h".
  6716.  
  6717. The right -Idiretory flag is passed to makedepend.
  6718.  
  6719.  
  6720.  
  6721. 492.
  6722. Date: Sat, 30 Sep 89 01:36:34 PDT
  6723. From: tve (Thorsten von Eicken)
  6724. Subject: mkmf and #define no_install
  6725.  
  6726. there should be a note in the man page about the possibility of
  6727. #defining no_install in local.mk
  6728.  
  6729.  
  6730.  
  6731. 493.
  6732. Date: Sat, 30 Sep 89 01:42:23 PDT
  6733. From: tve (Thorsten von Eicken)
  6734. Subject: mkmf and makedepend, where does DEPFLAGS go?
  6735.  
  6736. in /sprite/lib/pmake/command.mk is says at the beginning:
  6737. #    DEPFLAGS    additional flags to pass to makedepend
  6738. but these do not appear where makedepend in actually called. Maybe I'm
  6739. blind (the whole mkmf stuff is pretty complicated...) but I'll try to
  6740. fix it. I'll leave comments with the string "TvE" around so someone
  6741. please check whether I goofed. Thanks,
  6742.     -TvE
  6743. NB: anyway, I think the "-p" flag should always be passed to makedepend, I'll
  6744.     try to do that with "DEPFLAGS=-p"...
  6745.  
  6746.  
  6747.  
  6748.  
  6749. 494.
  6750. Date: Sat, 30 Sep 89 15:27:23 PDT
  6751. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  6752. Subject: wall bug
  6753.  
  6754. I rlogin'd to sage just a few moments ago and got the following wall
  6755. from yesterday:
  6756.  
  6757. sage<jhh 2> Broadcast message from douglis@kvetching.Berkeley.EDU at 17:30 ...
  6758. time for assault to be debugged.  /user2 will be unavailable temporarily....
  6759. Fred x29669
  6760.  
  6761.  
  6762.  
  6763. 495.
  6764. Date: Sat, 30 Sep 89 18:18:24 PDT
  6765. From: mgbaker (Mary Gray Baker)
  6766. Subject: non-existent FsStats referenced in spritemon
  6767.  
  6768. Spritemon no longer compiles because it references a structure called FsStats
  6769. which doesn't exist.  Was this renamed in the file system renaming?
  6770.  
  6771.  
  6772.  
  6773.  
  6774. 496.
  6775. Date: Sun, 1 Oct 89 13:55:14 PDT
  6776. From: ouster (John Ousterhout)
  6777. Subject: Re: makedepend problems
  6778.  
  6779. It's fine to use DEPFLAGS in makedepend calls, and it sounds like
  6780. a bug that it wasn't there before.  However, it sounds like Thorsten
  6781. may not have done everything necessary to add the usage of DEPFLAGS.
  6782. If DEPFLAGS are used, then they should default to empty to handle
  6783. the normal case where they're not specified.  In command.mk there
  6784. is a group of lines that do this for other flags, like XCFLAGS, LINTFLAGS,
  6785. and so on.  Perhaps the best solution is to add DEPFLAGS back into
  6786. command.mk, but also add a line
  6787.  
  6788. DEPFLAGS    ?=
  6789.  
  6790. in the group of lines just after the "#include <tm.mk" line.
  6791.  
  6792.  
  6793.  
  6794. 497.
  6795. Date: Sun, 1 Oct 89 15:05:39 PDT
  6796. From: ouster (John Ousterhout)
  6797. Subject: Weird /mic behavior
  6798.  
  6799. I noticed strange behavior with respect to /mic today... I'm not
  6800. sure whether this is a bug or not.  Mace has an old entry in its
  6801. prefix table from last week when /mic existed on Allspice.  At
  6802. present, /mic is dismounted and unavailable (and Allspice has
  6803. rebooted in there at some point too).  I tried to cd to /mic, and
  6804. saw two unusual things:
  6805.  
  6806. 1. The following messages appeare in my syslog window:
  6807.  
  6808.     open of "/mic" waiting for recovery
  6809.     10/1/89 14:49:13 allspice (14) RmtFile "/mic" <3,2> : stale handle
  6810.     10/1/89 14:49:13 allspice (14) - recovering handles
  6811.     10/1/89 14:49:13 allspice (14) RmtFile "/mic" <3,2> Reopen failed : domain unavailable
  6812.     10/1/89 14:49:14 allspice (14) Recovery complete 140 handles reopened 10 failed reopens
  6813.  
  6814. 2. The csh hung, and I had to kill it.
  6815.  
  6816. Perhaps it makes sense for the csh to hang, since it's ostensibly waiting
  6817. for /mic to become available, but I don't see why recovery should get
  6818. invoked.  This was repeatable:  each time I tried to cd to /mic, recovery
  6819. was invoked.
  6820.  
  6821. Then I tried "ls /mic", and something different appeared in my syslog
  6822. window:
  6823.     Fsprefix_HandleClose nuking "/mic"
  6824.     Broadcasting for server of "/mic"
  6825.     <prefix> 10/1/89 15:00:48 broadcast (0) RPC timed-out
  6826. Now this seemed much more reasonable:  the ls eventually quit with an
  6827. error "/mic unreadable".  At this point, "cd /mic" produced the same
  6828. behavior, so apparently the ls unwedged something inside the kernel.
  6829.  
  6830. Does "cd" behave differently than reading a file, and perhaps not invoke
  6831. the right level of recovery actions?
  6832.                         -John-
  6833.  
  6834.  
  6835. 498.
  6836. Date: Sun, 1 Oct 89 16:24:16 PDT
  6837. From: ouster (John Ousterhout)
  6838. Subject: Re: /sprite/lib/include/command.mk clears .PATH.h
  6839.  
  6840. I forget the exact reason why the system .mk files clear .PATH.h,
  6841. but I'm pretty sure it's necessary.  I believe that it has to be
  6842. done to guarantee a particular ordering of the include files, but
  6843. it's been a long time since I've thought about this.  You're
  6844. right that it makes things tricky for local.mk files.... sigh.
  6845. Some things in the local.mk have to be done BEFORE including
  6846. the SYSMAKEFILE, and some things (like adding to .PATH.h) have
  6847. to be done afterwards.  It would probably be better to re-arrange
  6848. the Makefiles some day so everything happens either before or
  6849. after including the SYSMAKEFILE.  As you've noticed, many of the
  6850. Makefile features also aren't documented very well (they've
  6851. gradually accreted over time).  I wish there were a simpler way for
  6852. all of this, (but given the complicated set of things we want the
  6853. Makefiles to handle, I'm not sure there is).
  6854.  
  6855.  
  6856.  
  6857.  
  6858. 499.
  6859. Date: Sun, 1 Oct 89 17:23:26 PDT
  6860. From: shirriff (Ken Shirriff)
  6861. Subject: kgdb.sun4 is strange
  6862.  
  6863. The editing controls no longer work correctly for kgdb.sun4.  Backspace
  6864. now does some strange nondestructive cursor motion function instead of
  6865. performing the normal backspace function.
  6866.  
  6867.  
  6868.  
  6869. 500.
  6870. Date: Sun, 1 Oct 89 22:16:11 PDT
  6871. From: douglis (Fred Douglis)
  6872. Subject: rpcecho/rpccmd -ping
  6873.  
  6874. rpcecho -h pride -d 16384 -n 1000
  6875. Rpc Send Test: N = 1000, Host = pride (6), size = 16384
  6876. N = 1000, Size = 16384, Time = 0.039671
  6877.  
  6878. rpccmd -ping pride -b 16384
  6879. Send 16384 bytes 0.020078 sec
  6880.  
  6881. I assume the echo is bouncing the entire packet back again, huh?
  6882. but the one-way ping doesn't have the same flexibility for repeating the
  6883. test a variable number of times, etc.  since these two programs do 
  6884. different things even though they look so similar, perhaps the
  6885. documentation should be clearer?  ("rpc send test => rpc bounce test" or
  6886. something?)
  6887.  
  6888.  
  6889.  
  6890.  
  6891. 501.
  6892. Date: Sun, 1 Oct 89 23:39:48 PDT
  6893. From: douglis (Fred Douglis)
  6894. Subject: tx/pdev bug
  6895.  
  6896. I held down ^A a bit to repeat the same command multiple times.
  6897. tx died with the following:
  6898.  
  6899. ReplyWithData couldn't send pdev reply; status "address given by the user for a system call was bad"
  6900.  
  6901.  
  6902.  
  6903. 502.
  6904. Date: Mon, 2 Oct 89 02:22:23 PDT
  6905. From: douglis (Fred Douglis)
  6906. Subject: pmake/migration bug w.r.t. high parallelism
  6907.  
  6908. when pmake goes past about 10 parallel tasks, it seems to hang fairly reliably.
  6909. no idea why yet.  could be machine flakiness (i ran up to 10 based on an rlogin
  6910. to hijack, then needed to use hijack too so ran the pmakes from kvetching, and
  6911. that's when they started hanging.  rebooting didn't help.  still, 10 seems like
  6912. a funny magic number...)
  6913.  
  6914.  
  6915.  
  6916.  
  6917. 503.
  6918. Date: Mon, 2 Oct 89 03:01:23 PDT
  6919. From: douglis (Fred Douglis)
  6920. Subject: new X too unstable
  6921.  
  6922. I reported a bug the other day when xkill caused my Xcfb.new server
  6923. to die, right?  well, "xhost" 
  6924. generated an error when given a hostname, and caused the
  6925. server to die when invoked with no arguments.
  6926.  
  6927.  
  6928.  
  6929. 504.
  6930. Date: Mon, 2 Oct 89 09:13:43 PDT
  6931. From: brent (Brent Welch)
  6932. Subject: Re: Weird /mic behavior
  6933.  
  6934. The chdir() by csh does an open which goes through the
  6935. regular recovery stuff in the prefix table routines.
  6936. It appears, however, that the open wasn't correctly
  6937. aborted when the recovery failed due to "domain unavailable".
  6938. There is probably some bug associated with the failure
  6939. to reestablish a prefix table entry.  By the time the
  6940. ls was done, then the prefix handle was already marked
  6941. invalid, so the prefix was cleared and another broadcast
  6942. was made.  So, the difference between your two cases was
  6943. not due to a difference between 'cd' and 'ls', but between
  6944. the first use of the /mic domain and subsequent ones.
  6945. The first case seems repeatable, and perhaps I'll have
  6946. time to test it on assault or something.
  6947.  
  6948.  
  6949.  
  6950. 505.
  6951. Date: Mon, 2 Oct 89 09:19:59 PDT
  6952. From: brent (Brent Welch)
  6953. Subject: Re: rpcecho/rpccmd -ping
  6954.  
  6955. rpcecho -s does a 'send' instead of an 'echo':
  6956.  
  6957. Usage of command "rpcecho"
  6958.  -n:    Number of RPCs to do
  6959.         Default value: 100
  6960.  -d:    Datasize to transmit
  6961.         Default value: 32
  6962.  -D:    Do tests at all sizes
  6963.  -e:    Echo off RPC server (default)
  6964.  -r:    Number of reps for each size
  6965.         Default value: 10
  6966.  -s:    Send instead of Echo
  6967.  -t:    Trace records taken (runs slower)
  6968.  -c:    High priority
  6969.  -h:    name of target host
  6970.  -help: Print this message
  6971.  
  6972.  
  6973.  
  6974.  
  6975. 506.
  6976. Date: Mon, 2 Oct 89 09:22:52 PDT
  6977. From: brent (Brent Welch)
  6978. Subject: Re: tx/pdev bug
  6979.  
  6980. ReplyWithData couldn't send pdev reply; status "address given by the user for a system call was bad"
  6981.  
  6982. This is a known problem.  If the user's buffer is bad tx gets an
  6983. error and aborts.  The pdev code needs to be fixed to determine
  6984. which buffer (user's or server's) is bad.
  6985.  
  6986.  
  6987.  
  6988. 507.
  6989. Date: Mon, 2 Oct 89 13:00:06 PDT
  6990. From: mgbaker (Mary Gray Baker)
  6991. Subject: lots of icky sparc station stuff
  6992.  
  6993. I knew it would be a useful exercise to try living on a sparc station...  Lots
  6994. of stuff seems to have gone haywire since the last time I tried a lot of this.
  6995. And some of these are continuing bugs.
  6996.  
  6997. 1) The machine gets in a mode sometimes from a particular csh window where
  6998. everything exec'd from the csh gets a seg fault.  This is horrible since it
  6999. probably means something about caches or register windows not being flushed
  7000. at the right time.  Brent noticed this happening once on a regular sun4 if
  7001. I'm not mistaken, so this isn't just a sparc station problem.  This did not
  7002. happen before, so something has changed to create this mess.
  7003.  
  7004. 2) Vi keeps forgetting its TERMCAP and using open mode.  I reported this bug
  7005. before.
  7006.  
  7007. 3) Some X applications, such as xclock, keep dying in XtConvert().
  7008.  
  7009. 4) It's sometimes hard to debug user programs with seg faults, since the
  7010. debugger often seg faults on them.  When I can debug them though, it appears
  7011. there was no reason for them to seg fault where they did.  This again points
  7012. to a cache or register window flushing problem that isn't updating the stack
  7013. at the right time...
  7014.  
  7015.  
  7016.  
  7017. 508.
  7018. Date: Mon, 2 Oct 89 13:33:00 PDT
  7019. From: eklee (Edward K. Lee)
  7020. Subject: missing directory
  7021.  
  7022. One of my directories /sprite/users/eklee/cmds.md seems to have
  7023. mysteriously vanished.  It was there Friday but not today.
  7024. I'm not sure when it was last modified (probably a long time ago.
  7025.  
  7026.  
  7027.  
  7028. 509.
  7029. Date: Tue, 3 Oct 89 13:54:35 PDT
  7030. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7031. Subject: unknown problem with thyme
  7032.  
  7033. Thyme got very sluggish on me and a ps -au reveiled a process in the
  7034. UNUSD state using 47.7% of the cpu.  I put thyme into the debugger
  7035. but was unable to attach to it from allspice.  It also ignores
  7036. kmsg -c requests.  Thyme was running kernel 1.023.  I don't think there
  7037. were any migrations in progress. File this one away for future 
  7038. reference.
  7039.  
  7040.  
  7041.  
  7042. 510.
  7043. Date: Tue, 3 Oct 89 15:28:12 PDT
  7044. From: pmchen (Peter M. Chen)
  7045. Subject: corrupted file
  7046.  
  7047. My mailbox got corrupted sometime (don't know when):
  7048. Any ideas of what happened?
  7049. I left a copy of the file in ~pmchen/tmp/corruptedmail
  7050.  
  7051.  
  7052.  
  7053. 511.
  7054. Date: Tue, 03 Oct 89 16:28:18 PDT
  7055. From: rab (Robert A. Bruce)
  7056. Subject: piquante
  7057.  
  7058. Piquante is in the debugger:
  7059.  
  7060. Fatal Error: Software time is ahead of the hardware
  7061.  
  7062.  
  7063.  
  7064. 512.
  7065. Date: Tue, 3 Oct 89 16:37:22 PDT
  7066. From: brent (Brent Welch)
  7067. Subject: Allspice cache crash
  7068.  
  7069. Allspice died in the block cache.  It apparently found a
  7070. block associated with a previous incarnation of a domain.
  7071. John H. had unmounted a file system and remounted it
  7072. under a different name.  I believe that the unmount left
  7073. a block in a funny state in the cache.  It was an indirect
  7074. block, or perhaps a block of file descriptors - it thought
  7075. it was associated with the "physHandle" of the domain,
  7076. which is used for indirect blocks and file descriptors.
  7077. However, while the block referenced the physHandle, the
  7078. physHandle didn't reference the block.  A panic occurred
  7079. when DeleteBlock tried to take this block away from the physHandle.
  7080. More details: the block was in the LRU list, and it was found
  7081. by FetchBlock.  FetchBlock called DeleteBlock in order to
  7082. take the block away from its current owner.  DeleteBlock found
  7083. the block in the hash table, but it died trying to remove it
  7084. from the per-file block list (or indirect block list).  This
  7085. is code I have stared at in the past.  There is no obvious
  7086. place where things could easily get out of wack, but it is
  7087. all rather complex and not obviously correct either.
  7088. I did glance at the Unmount code, and there doesn't seem to
  7089. be any particular attention payed to the cache.  A write-back
  7090. is done, but there are no consistency checks made on
  7091. the physHandle associated with the domain.  Checks should be
  7092. added - the unmount code is probably the least used code we have.
  7093.  
  7094.  
  7095.  
  7096. 513.
  7097. Date: Tue, 3 Oct 89 20:17:11 PDT
  7098. From: pmchen (Peter M. Chen)
  7099. Subject: transient bug in floating point?
  7100.  
  7101. About 15 minutes ago I compiled a program which had always run fine
  7102. and got an odd error from a print statement
  7103.  
  7104. printf("tot1=%d, tot=%d, i=%d\n",tot1,tot,i);
  7105. printf("%.2lf %% requests fulfilled in %d ms\n",
  7106.     (double)tot1*100.0/tot,i);
  7107. printf("%d %lf %d\n",i,(double)tot1*100.0/tot,i);
  7108.  
  7109. produced something like:
  7110. tot1=300, tot=301, i=40
  7111. 99.67 % requests fulfilled in 120385833 ms
  7112. 40 99.6666667 120385833
  7113.  
  7114. I'm making this up because I don't have the real output when the program
  7115. was doing this (so the 120385833 is fudged).  But it did give garbage there
  7116. instead of "40".  It looks like the results of the floating point is
  7117. wrecking the next argument to printf.
  7118.  
  7119. I've recompiled it many times and it did this consistently (on a sun3).  Then
  7120. I moved to a sun4 and it worked fine.  After this, I moved the routine to
  7121. a separate module and recompiled (on the sun3) and it works fine now.
  7122. I am not compiling with hardware support.  The program is ~pmchen/raid/mult
  7123. and the offending routine is printlat (in printlat.c).
  7124.  
  7125.  
  7126.  
  7127.  
  7128. 514.
  7129. Date: Wed, 04 Oct 89 09:54:34 PDT
  7130. From: rab (Robert A. Bruce)
  7131. Subject: pepper
  7132.  
  7133. Pepper is in the debugger:
  7134. Fatal Error: Trying to broadcast non-prefix
  7135.  
  7136.  
  7137.  
  7138. 515.
  7139. Date: Wed, 4 Oct 89 12:29:19 PDT
  7140. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7141. Subject: uwm dies
  7142.  
  7143. My uwm dies using Xmfb.new.  It doesn't go into the debugger, it just
  7144. goes away.  Any new ones I start just sit there and do nothing.
  7145.  
  7146.  
  7147.  
  7148. 516.
  7149. Date: Wed, 4 Oct 89 16:41:20 PDT
  7150. From: brent (Brent Welch)
  7151. Subject: File server lock-out
  7152.  
  7153. You can fully occupy the attention of a Sprite file server
  7154. by writing a huge file.  The new SCSI interface happily
  7155. queues up a zillion blocks, and then the SCSI interrupt
  7156. handler chains through the blocks writing each one.
  7157. In the meantime the server doesn't do much else.
  7158. I noticed this the other day when pounding on assault,
  7159. and it happened again today when John H tried to write
  7160. a huge file to test out a new disk.  My innocent editor
  7161. write-back hung until his job was aborted.  You can also experience
  7162. this by trying to use Oregano as a workstation.  I haven't
  7163. fully diagnosed the problem with the debugger or anything,
  7164. but I think that between the disk interrupts and the
  7165. block cleaner things are effectively blocked out
  7166. of the file system cache.  I'm not sure exactly, but
  7167. perhaps my write couldn't complete because the server
  7168. couldn't read an indirect block until the file currently
  7169. being written out cleared the disk queue.
  7170.  
  7171. Adding interrupt priorities would only help mouse response
  7172. when the disk is busy, and perhaps this isn't that important.
  7173. I'm not sure what to do about the disk queue.  Perhaps we can
  7174. throttle the block cleaner so it only does N blocks of a file at
  7175. a time (the cleaning is done on a per-file basis) so that other
  7176. cache I/O's can slip in.  This is much like the old problem
  7177. we had where the disk queuing wasn't fair at all, and once
  7178. the block cleaner got a hold of it it didn't let go until
  7179. it was done.  Now the block cleaner is free to queue up
  7180. the whole cache!
  7181.  
  7182.  
  7183.  
  7184. 517.
  7185. Date: Wed, 4 Oct 89 17:50:50 PDT
  7186. From: tve (Thorsten von Eicken)
  7187. Subject: ds3100 ld spits out "LINK EDITOR MAP" on "ld -r"
  7188.  
  7189. Yeah, I have a "bigcmd" directory. I type mkmf and pmake and at the end
  7190. when it comes to the link, it does it and then spits the LINK EDITOR MAP
  7191. at me. Is this a feature?
  7192.  
  7193.  
  7194.  
  7195. 518.
  7196. Date: Wed, 4 Oct 89 23:53:09 PDT
  7197. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7198. Subject: assault runs out of memory
  7199.  
  7200. Assault runs out of memory if you get too many file handles.
  7201.  
  7202.  
  7203.  
  7204.  
  7205. 519.
  7206. Date: Thu, 5 Oct 89 13:19:51 PDT
  7207. From: brent (Brent Welch)
  7208. Subject: signal/proc deadlock
  7209.  
  7210. Garth found Basil in a deadlock today.  I hunted around for
  7211. a while and deduced that there was a deadlock between
  7212. the Sig:sigLock and the Proc:tableBlock.  I didn't fully
  7213. figure the deadlock out, as I simply stopped after spending
  7214. a half an hour or so looking around.  Basil had many
  7215. processes in the debug state, by the way.  There were
  7216. also a coupld processes trying to send signals, including
  7217. an Rpc_Server from some remote host.  Finally, the Xsprite
  7218. process was locked, but I could't quite figure out who
  7219. had it locked.
  7220.  
  7221. With the 'holderPC' and 'holderPCBPtr' we ought to
  7222. have enough information to figure these deadlocks out.
  7223. (In fact, having this really helps a lot.)  However,
  7224. it is still tedious although slightly less time consuming.
  7225.  
  7226. Is hopeless to hope for improved debugger support?
  7227. I am fearful that the difficult bugs in Sprite will
  7228. not be solvable in our current environment, especially
  7229. as the experts/implementors begin to leave.  This is
  7230. a strong plea for better attention to the debugging
  7231. facilities.  For exmaple, it is still probablistic
  7232. whether you can examine a local variable in gdb.
  7233. Sometimes you just get "Error: invalid address 0".
  7234. It is also painful to examine 30+ processes to
  7235. determine what the deadlock is.  Or, for another example,
  7236. if a machine hangs while trying to enter the debugger
  7237. (i.e. the cache-lock is held so you can't sync the disks)
  7238. then you have to manually scan through all the processes
  7239. and see which one got the panic.  It is little things
  7240. like this that conspire against good debugging.  It's
  7241. too bad that none of us want to work to improve the
  7242. debugging environment (hint hint).  I think there is
  7243. lots of room for improvement.  Flame off.
  7244.  
  7245.  
  7246.  
  7247. 520.
  7248. Date: Fri, 6 Oct 89 08:39:34 PDT
  7249. From: ouster (John Ousterhout)
  7250. Subject: Crash and disk space
  7251.  
  7252. When I came in today Allspice was catatonic:  it didn't respond to
  7253. its keyboard at all and wasn't responding to rpc requests.  I gave
  7254. up and rebooted it.  Also, disk space was empty on /sprite/src/kernel.
  7255. In order to unwedge Mace (which was apparently hung trying to write
  7256. back something from a migrated process), I deleted the sun3.1.023
  7257. kernel (it didn't appear to me to be in use any more).
  7258.  
  7259.  
  7260.  
  7261. 521.
  7262. Date: Fri, 6 Oct 89 12:06:28 PDT
  7263. From: mgbaker (Mary Gray Baker)
  7264. Subject: tx window in the debugger
  7265.  
  7266. My tx window with a long-standing kernel debugging session in it just went
  7267. into the debugger.  I don't think I did anything weird except that I typed
  7268. a return key in it for the first time after a number of hours.
  7269.  
  7270.  
  7271.  
  7272. 522.
  7273. Date: Fri, 6 Oct 89 16:24:30 PDT
  7274. From: brent (Brent Welch)
  7275. Subject: Mint crash Friday
  7276.  
  7277. As you probably know, mint had a rough afternoon on Friday.
  7278. The underlying cause is that the bug I attempted to
  7279. fix concerning scavenging a handle for a file that is
  7280. being deleted was not fixed, apparently.  Mint was deleting
  7281. a file in /tmp and got a bus error because a handle didn't have a file
  7282. descriptor attached to it (a sign of scavenging).
  7283. Interestingly, fscheck didn't complain (this time) about
  7284. the file that was in the process of being deleted.
  7285. Mint then had troubles during recovery.  After the
  7286. very first round of re-opens it simply hung - lots of processes
  7287. in the ready state, and an lpd process in the running state.
  7288. I rebooted, and this time fscheck found that the tmp file
  7289. which caused the first crash referenced a non-allocated file descriptor.
  7290. Anyway, towards the very end of recovery #2 mint crashed again,
  7291. this time with a different bug related to local file handles,
  7292. another one I had thought I'd fixed.  This bug concerns
  7293. what happens when the handle table fills up - there is a window
  7294. of time where a handle is partially installed, and apparently
  7295. the wrong guy got it back.  (That's a hand-wavy explaination.
  7296. The problem is probably in Fsutil_HandleInstall.)
  7297. Now for the fun part.  The next reboot sequence failed with
  7298. the following message:
  7299. Unknown user brent  (!!)
  7300. It turns out that /etc/passwd got truncated (yow!),
  7301. I was the owner of /sprite/cmds/csh, and csh couldn't
  7302. execute the /boot/bootcmds script because of no /etc/passwd.
  7303. Luckily we could access the other servers from the single
  7304. user shell, and we copied /t1/etc/passwd to /etc/passwd,
  7305. sourced the boot script, and we seemed to be back in business.
  7306. The third time is the charm, as they say, and mint was
  7307. able to make it through recovery ok.  I'll go look at
  7308. my brain-damaged code that concerns local file handles,
  7309. as mint crashed in two different ways in this area.
  7310.  
  7311.  
  7312.  
  7313.  
  7314. 523.
  7315. Date: Sun, 8 Oct 89 10:32:49 PDT
  7316. From: ouster (John Ousterhout)
  7317. Subject: Mint crash
  7318.  
  7319. When I came in this morning Mint was not responding to RPC requests.
  7320. I went up to the machine room and discovered that Allspice was out
  7321. of disk space on /user1, and Mint had used up all its console paper
  7322. printing out disk full messages for files it was trying to write
  7323. to /user1.  This apparently had hung Mint?  I added more paper to
  7324. the console, at which point Mint printed a bunch of unintelligble
  7325. garbage on the console and then went catatonic (no response whatsoever
  7326. to the console).  At this point I rebooted Mint.  Unfortunately,
  7327. many of the clients did not recover ("Recovery failed <30002>").
  7328. I then rebooted Mint a second time, but many clients still didn't
  7329. recover.  Fortunately, piracy was one of the lucky ones.  I then
  7330. used piracy to free up disk space on /user1, and when I did that
  7331. Mace then recovered.  I don't know whether the lack of disk space
  7332. somehow impacted recovery or this was just a coincidence.
  7333.  
  7334.  
  7335.  
  7336.  
  7337. 524.
  7338. Date: Sun, 8 Oct 89 13:39:27 PDT
  7339. From: ouster (John Ousterhout)
  7340. Subject: Kgdb and registers
  7341.  
  7342. It doesn't appear to be possible to set register values from Kgdb.
  7343. When Mendel and I tried this today we ended up with the value "4"
  7344. in the register, which wasn't at all what we thought we were
  7345. storing.
  7346.  
  7347.  
  7348.  
  7349. 525.
  7350. Date: Sun, 8 Oct 89 13:41:19 PDT
  7351. From: ouster (John Ousterhout)
  7352. Subject: Sun-4, interrupts, and debugging
  7353.  
  7354. If a Sun-4 is forced into the debugger with "kmsg -d", and is then
  7355. debugged with kgdb, kgdb does not correctly identify the stack
  7356. frame that was active when the network interrupt occurred.  This
  7357. makes it very hard to locate an infinite loop in the kernel, for
  7358. example.  Mary, can you fix the interrupt code to fudge enough
  7359. information on the stack so that Kgdb can correctly identify the
  7360. frame that was interrupted?
  7361.  
  7362.  
  7363.  
  7364.  
  7365. 526.
  7366. Date: Sun, 8 Oct 89 20:10:11 PDT
  7367. From: pmchen (Peter M. Chen)
  7368. Subject: pmake
  7369.  
  7370. I get the following error message from pmake clean
  7371. --- tidy ---
  7372. rm -f %(sh: syntax error at line 1: `(' unexpected
  7373. *** Error code 2
  7374. pmake: 1 error
  7375.  
  7376. I had just 'pm mkmf'-ed this directory.  The offending directory is
  7377. ~pmchen/simul, and this error occurred on anise and on mustard (with TM=sun4).
  7378.  
  7379.  
  7380.  
  7381.  
  7382. 527.
  7383. Date: Sun, 8 Oct 89 20:15:26 PDT
  7384. From: pmchen (Peter M. Chen)
  7385. Subject: floating point error?
  7386.  
  7387. I have another program with really weird errors.  Floating point variables
  7388. get changed by miscellaneous program statements (such as a printf statement).
  7389. This happens on the sun3's (mustard), compiled with hardware floating point.
  7390.  
  7391. It doesn't happen on the ds3100's.  I don't know whether it happens on the
  7392. sun4's or not (see previous message to bugs about sun4 pmake problems).
  7393.  
  7394. The problem does NOT happen using software floating point on the sun3's.
  7395.  
  7396. The program is ~pmchen/simul/simul.  You can produce the error with
  7397. simul -d 1 -q 1 -i 2 -r 0
  7398.  
  7399. Watch for the NaN outputs.
  7400.  
  7401.  
  7402.  
  7403.  
  7404. 528.
  7405. Date: Fri, 6 Oct 89 10:09:12 PDT
  7406. From: pmchen (Peter M. Chen)
  7407. Subject: problem in allspice
  7408.  
  7409. I am using the Sprite FS in, shall we say, out of the ordinary ways: ie.
  7410. writing thousands of files to one directory.  I was running simulations
  7411. on parsley which output lots of small files to ~pmchen/simul/out/small.
  7412.  
  7413. The csh script I ran is in ~pmchen/simul/ex/small.
  7414.  
  7415. This ran fine (to completion) last night on parsley, but might be the cause
  7416. of the problems this morning.  As per instructed by John O., I F1-A'ed parsley
  7417. so we could see if allspice stays up for a while.  Of course, Randy's
  7418. machine is thus unavailable.
  7419.  
  7420.  
  7421.  
  7422.  
  7423. 529.
  7424. Date: Mon, 09 Oct 89 06:34:21 PDT
  7425. From: rab (Robert A. Bruce)
  7426. Subject: allspice
  7427.  
  7428. When I came in this morning allspice was frozen.  It didn't
  7429. respond to the keyboard or to the network.  There were no
  7430. error messages on the screen.  /user1 was being dumped when
  7431. it died.
  7432.  
  7433.  
  7434.  
  7435. 530.
  7436. Date: Mon, 9 Oct 89 12:28:00 PDT
  7437. From: mgbaker (Mary Gray Baker)
  7438. Subject: Re: Sun-4, interrupts, and debugging
  7439.  
  7440. [I sent this yesterday, but it seems that at least neither Fred nor Mendel
  7441. got it.  I think something went wrong with fenugreek's sendmail or whatever.]
  7442.  
  7443. It sounds to me like people don't have quite the picture of how the register
  7444. windows and stack frames work on the sun4.  The problem is not in the kernel.
  7445. We can easily fix the problem, and will do so, but it shouldn't mean changing
  7446. what's in a trap frame, and there's really no such thing as "fudging
  7447. enough information" since an interrupt frame is just a trap frame on
  7448. the sun4 (because interrupts are just asyncronous traps on the sun4).
  7449. I think everybody agreed this was a nice clean way of doing it and changing
  7450. this right now would involve reworking a lot of stuff.
  7451.  
  7452. Here's what the debugger is getting confused about: as it traces back along the
  7453. stack, looking at each frame as if it's a C call frame, it looks for the pc of
  7454. the calling routine in %i7.  This is %o7 of the previous register window.  If a
  7455. trap occurs, the register window gets bumped forward one (by the hardware) and
  7456. various values are stuffed into registers in the new register window (by the
  7457. hardware).  It's this trap frame that the debugger sees.  The problem is that
  7458. the pc of where the trap occurred gets put into %l1 (by the hardware) instead
  7459. of into %i7.  This confuses the debugger since it doesn't special-case the trap
  7460. frame.  But I can't stuff the pc into %i7, since that's part of the state we
  7461. can't overwrite.  So, in %i7, the debugger usually finds the pc of the routine
  7462. that last made a procedure call from that window.  What we can do instead, is
  7463. have the debugger recognize the range of pc's for the trap (and interrupt)
  7464. handlers, and if it finds such a pc in a %i7, it can special-case what to do
  7465. with the stack frame before that, since it will be a trap frame and not a C
  7466. call frame.
  7467.  
  7468.  
  7469.  
  7470. 531.
  7471. Date: Tue, 10 Oct 89 23:01:11 PDT
  7472. From: shirriff (Ken Shirriff)
  7473. Subject: Bug in Proc_AddMigDependency?
  7474.  
  7475. Proc_AddMigDependency (procMigrate.c), line 182, calls HashFind(table,
  7476.     (Address) processID), which calls Hash, which uses the second argument
  7477. as a pointer to the string to hash.  Since the processID doesn't point
  7478. to a valid string, this crashes.
  7479.  
  7480. This happened when I tried to do a pmake running a new kernel of mine.
  7481. The stack trace is MachSysCall->MachUserReturn->Sig_Handle->Proc_MigrateTrap
  7482. ->Proc_AddMigDependency->Hash_Find->hash.Hash.
  7483. As far as I can tell this bug has always been in there, but I don't know
  7484. why things have worked up until now.  Maybe my kernel is confusing
  7485. something?
  7486.  
  7487.  
  7488.  
  7489. 532.
  7490. Date: Tue, 10 Oct 89 23:56:22 PDT
  7491. From: Fred Douglis <douglis>
  7492. Subject: ds3100 flakiness returns
  7493.  
  7494. things are acting weird again. for example, a couple of times today i
  7495. had cc's returning exit statuses of 1 with no warnings, where a
  7496. recompile went fine; i had one set of cc's complain about typedefs not
  7497. existing when they were fine (again, recompiling worked fine); and
  7498. finally i spent a half hour trying to boot a new kernel, hitting
  7499. "Enabling timer interrupts" early in the boot sequence and then dying.
  7500. I tried different combinations of reset+init+bootpath+etc without
  7501. help. finally i relinked my kernel and it worked just fine.
  7502.  
  7503.  
  7504.  
  7505. 533.
  7506. Date: Wed, 11 Oct 89 14:14:30 PDT
  7507. From: Fred Douglis <douglis>
  7508. Subject: repeated recovery
  7509.  
  7510. when mint froze up before, i got a bunch of "cacheable/busy" conflict
  7511. messages and then recovery over and over.  Finally, once things
  7512. started to clear up, I was down to a tight loop of recovery followed
  7513. by a stale handle on a file that was accessed by a process that went
  7514. into the debugger as soon as mint started responding again.  I'll send
  7515. brent my syslog with a copy to the sprite-log -- no need to burden
  7516. everyone else with it, since it's very long.
  7517.  
  7518.  
  7519.  
  7520. 534.
  7521. Date: Wed, 11 Oct 89 20:57:50 PDT
  7522. From: Fred Douglis <douglis>
  7523. Subject: /dev/syslog truncation bug
  7524.  
  7525. I was able to test out my syslog change on sun4s, and while trying to
  7526. exercise the bug I ran into something else.  It seemed that if I
  7527. suspended something reading /dev/syslog, and I wrote lots of stuff to
  7528. syslog in one operation, I could overflow the syslog and cause an old
  7529. kernel to go into an infinite loop as expected.  But, both old and new
  7530. kernels had another problem: if I said "cat xyz > /dev/syslog"
  7531. repeatedly, each one would overwrite the previous one rather than
  7532. filling the buffer and overflowing!  After lots of head scratching I
  7533. found out that the ioctl interface for syslog clears the buffer, and
  7534. csh opens /dev/syslog with truncation set.  This means that it would
  7535. be possible to lose stuff from the syslog if it got truncated before
  7536. the reader got in to get the data.  I'm going to remove support for
  7537. IOC_TRUNCATE; speak up if you can think of a case to reinstate it.
  7538.  
  7539.  
  7540.  
  7541. 535.
  7542. Date: Wed, 11 Oct 89 21:39:27 PDT
  7543. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7544. Subject: evil black blob lives!!
  7545.  
  7546. I've got one of those nasty black blobs that extends from my cursor
  7547. to the right edge of my tx window on hijack.  I was under the
  7548. impression this was fixed, but evidently the blob knows differently.
  7549. It is now immune to 'clear'.
  7550.  
  7551.  
  7552.  
  7553. 536.
  7554. Date: Thu, 12 Oct 89 10:29:02 PDT
  7555. From: Fred Douglis <douglis>
  7556. Subject: large selection doesn't work
  7557.  
  7558. If I select a large region, and then use "select" to write it to a
  7559. file, nothing gets produced.  I'm pretty sure this worked as of a few
  7560. weeks ago.  If I select several lines at a time, things work okay.
  7561.  
  7562.  
  7563.  
  7564. 537.
  7565. Date: Thu, 12 Oct 89 11:27:33 PDT
  7566. From: tve (Thorsten von Eicken)
  7567. Subject: something wrong with mail: /sprite/spool/mqueue not found
  7568.  
  7569. On the sun4's (burble, allspice) shortly after I send mail, I get an error
  7570. message on my tty saying:
  7571. queuename: Cannot create "qf~Z210967" in "/sprite/spool/mqueue": no such file or directory
  7572. This does not happen on ds3100, (nor sun3s I think).
  7573.  
  7574.  
  7575.  
  7576. 538.
  7577. Date: Wed, 11 Oct 89 16:32:06 PDT
  7578. From: mgbaker (Mary Gray Baker)
  7579. Subject: ranlib dies on sun4
  7580.  
  7581. Ranlib gets a segfault on the sun4 in the routine stash() at line 309
  7582. when it dereferences s->n_un.n_name.  The address is out of bounds (0xfe15280c).
  7583.  
  7584.  
  7585.  
  7586. 539.
  7587. Date: Thu, 12 Oct 89 13:01:40 PDT
  7588. From: ouster (John Ousterhout)
  7589. Subject: Mail file trashed
  7590.  
  7591. The last few bytes of my mail file got lost today.  The result
  7592. was a partial header from Mary, followed by a header and message
  7593. from a 60B student.  By the time I noticed it, the mail file had
  7594. already been modified a couple of times, so I didn't bother to
  7595. save the damaged copy.  Mary, if the message you sent just after
  7596. the one about "tx search dies on a sun4" is important for me to
  7597. see, could you resend it?
  7598.  
  7599.  
  7600.  
  7601. 540.
  7602. Date: Thu, 12 Oct 89 13:35:16 PDT
  7603. From: mendel (Mendel Rosenblum)
  7604. Subject: wall kills rlogin
  7605.  
  7606. Brent's last wall message terminated a rlogin from murder to anise.  The
  7607. message:
  7608.  
  7609. anise% df .
  7610. Prefix              Server       KBytes       Used      Avail    % Used
  7611. /mnt                anise        284000       3148     252452       1%
  7612. anise% Broadcast message from brent@oregano.Berkeley.EDU at 13:16 ...
  7613. Sayonara - rebooting after 20 days of uptime
  7614. to test recovery and the new kernel
  7615.  
  7616.  
  7617.  
  7618. 541.
  7619. Date: Thu, 12 Oct 89 13:36:12 PDT
  7620. From: mendel (Mendel Rosenblum)
  7621. Subject: wall kills rlogin 
  7622.  
  7623. Brent's last wall message terminated a rlogin from murder to anise.  The
  7624. message:
  7625.  
  7626. anise% df .
  7627. Prefix              Server       KBytes       Used      Avail    % Used
  7628. /mnt                anise        284000       3148     252452       1%
  7629. anise% Broadcast message from brent@oregano.Berkeley.EDU at 13:16 ...
  7630. Sayonara - rebooting after 20 days of uptime
  7631. to test recovery and the new kernel
  7632.  
  7633. PdevServiceRequest: bad request on request stream: 540095032
  7634.                                                             Connection closed.
  7635. murder% 
  7636.  
  7637.  
  7638.  
  7639. 542.
  7640. Date: Thu, 12 Oct 89 17:53:21 PDT
  7641. From: brent (Brent Welch)
  7642. Subject: FS deadlock found
  7643.  
  7644. I think I have figured out the deadlock that has killed
  7645. mint the past few times.  It occurs during times of heavy
  7646. load because a client responds to a call-back too fast,
  7647. and locks are aquired (released, actually) in the wrong
  7648. order.  I need to take off for dinner, but it would be
  7649. nice if I could have some time to truely verify this
  7650. deadlock (by scouring the code some more) and figure
  7651. out a correct fix for the new .new kernels.  If Mary wants
  7652. to use things as is and reboot Allspice with a better
  7653. sun4 kernel (perhaps sun4.mgbaker) that would be ok.
  7654. Currently mint and oregano are running sun3.brent (BW.151)
  7655. which has my other RPC/RECOV/FS fixes in.
  7656.  
  7657.  
  7658.  
  7659. 543.
  7660. Date: Thu, 12 Oct 89 18:01:48 PDT
  7661. From: mendel (Mendel Rosenblum)
  7662. Subject: slow source listing in gdb.new
  7663.  
  7664. The reason that the new gdb lists source lines so slowly on Sprite is 
  7665. that it calls the library routine isatty() for each character displayed. 
  7666. On unix the isatty() routine takes around 100-200 microseconds while it
  7667. takes 2-4 milliseconds on Sprite.  The reason is that Sprite forwards the
  7668. ioctl to the terminal driver using pdevs.  
  7669.  
  7670.  
  7671.  
  7672. 544.
  7673. Date: Thu, 12 Oct 89 18:37:45 PDT
  7674. From: mendel (Mendel Rosenblum)
  7675. Subject: cc1.68k dies 
  7676.  
  7677. cc1.68k dies on the following code fragment from the net module.
  7678.  
  7679. NetIERecvUnitInit()
  7680. {
  7681.     volatile struct {
  7682.             char recvUnitStatus:7  ;     
  7683.         } *scbPtr;
  7684.  
  7685.     scbPtr->recvUnitStatus;
  7686. }
  7687.  
  7688.  
  7689.  
  7690. 545.
  7691. Date: Thu, 12 Oct 89 18:44:44 PDT
  7692. From: mgbaker (Mary Gray Baker)
  7693. Subject: ipServer and deadlock
  7694.  
  7695. The ipServer on covet died.  When I killed the inetd and ipServer in
  7696. preparation to restart the ipServer, covet went into the debugger with
  7697. deadlock on schedMutex.  I wrote down the pc, etc, in case anyone is
  7698. interested.
  7699.  
  7700.  
  7701.  
  7702. 546.
  7703. Date: Fri, 13 Oct 89 11:17:27 PDT
  7704. From: brent (Brent Welch)
  7705. Subject: Re: vmPageTableInc bug was List problem
  7706.  
  7707. I added a list and wasn't using the List macros right,
  7708. which resulted in me trashing vmPageTableInc.  I seem
  7709. to do this everytime I add a new list, because if
  7710. you aren't careful you end up using the list header
  7711. as a list element.  The List_ macros are happy to
  7712. return you the list header, which is dangerous.  If you
  7713. don't use LIST_FORALL, you have to use the following
  7714. code sequences to get the first element, then the next:
  7715.  
  7716. /* Get the first element of the list, or NIL if the list is empty */
  7717.     if (List_IsEmpty(recovPingList)) {
  7718.     pingPtr = (RecovPing *)NIL;
  7719.     } else {
  7720.     pingPtr = (RecovPing *)List_First(recovPingList);
  7721.     }
  7722.  
  7723. /* Get the next element of the list, or NIL if at the end of the list */
  7724.     pingPtr = (RecovPing *)List_Next((List_Links *)pingPtr);
  7725.     if (List_IsAtEnd(recovPingList, (List_Links *)pingPtr)) {
  7726.     pingPtr = (RecovPing *)NIL;
  7727.     }
  7728.  
  7729.     brent
  7730. ps.  You can't use LIST_FORALL if the list can change dynamically.
  7731. In this case I have a list that can grow do I use a monitor to
  7732. control list iteration and addition of items to the list.  Anyway,
  7733. I ended up using the list header as a list element....
  7734.  
  7735.  
  7736.  
  7737. 547.
  7738. Date: Fri, 13 Oct 89 11:45:54 PDT
  7739. From: ouster (John Ousterhout)
  7740. Subject: Second gateway
  7741.  
  7742. I sent mail to Herve DaCosta asking about getting a second gateway
  7743. out of the SPUR net to replace ji.  There's already a machine in
  7744. the works for this, called "csgw2".  It should be on-line in the
  7745. not-too-distant future.
  7746.  
  7747. On a related note, Brian Shiratsuki asked if Sprite is capable of
  7748. switching name servers if the first choice doesn't respond.  I
  7749. don't know if we do this, but if it isn't hard to implement it
  7750. seems like a good idea.  Thus if csgw is down we could switch to
  7751. ginger or csgw2.
  7752.  
  7753.  
  7754.  
  7755.  
  7756. 548.
  7757. Date: Fri, 13 Oct 89 12:03:22 PDT
  7758. From: Fred Douglis <douglis>
  7759. Subject: profiling broken
  7760.  
  7761. user-level profiling (on sun3s) is not recording run-time PC sampling.
  7762. I can get a call graph but not how much time is spent in each routine.
  7763. (I've talked to Bob about this, but I wanted to file an official bug
  7764. report too.)
  7765.  
  7766.  
  7767.  
  7768. 549.
  7769. Date: Fri, 13 Oct 89 12:21:55 PDT
  7770. From: tve (Thorsten von Eicken)
  7771. Subject: lost mail to bugs 'cause of mail problem
  7772.  
  7773. (the /sprite/spool/mqueue not found on sun4's stuff...)
  7774. I'll remail everything, pardon if somethig arrives twice.
  7775.  
  7776.  
  7777.  
  7778. 550.
  7779. Date: Fri, 13 Oct 89 12:23:55 PDT
  7780. From: tve (Thorsten von Eicken)
  7781. Subject: The mail problem on sun4's
  7782.  
  7783. (It always says something like:
  7784. queuename: Cannot create "qf~Z275756" in "/sprite/spool/mqueue": no such file or directory
  7785. )
  7786. I guess it has to do with /sprite/spool/mqueue being owned by root, group
  7787. wheel and NOT world-writable.
  7788.  
  7789.  
  7790.  
  7791. 551.
  7792. Date: Fri, 13 Oct 89 12:26:27 PDT
  7793. From: tve (Thorsten von Eicken)
  7794. Subject: group sprite
  7795.  
  7796. I know it's a pain to keep track of what group files belong to, but:
  7797. if someday the world gets reorganized (with the new disks), could the person(s)
  7798. doing that take care of the group files/dirs get into?
  7799. Those who don't have a "su" window on their screen will thank you! (hehe..)
  7800.  
  7801.  
  7802.  
  7803. 552.
  7804. Date: Fri, 13 Oct 89 13:11:07 PDT
  7805. From: Fred Douglis <douglis>
  7806. Subject: _extendsfdf2 missing
  7807.  
  7808. I tried to link a new copy of something using libc_p.  it found
  7809. everything but _extendsfdf2.  I looked for this in libc and saw that
  7810. there was an object file in gnulib/sun3.md/oldobjs but nothing in
  7811. sun3.md itself.  _extendsfdf2.po is a link to a nonexistent
  7812. _extendsfdf2.o in sun3.md.  i suspect if we were to remove libc.a at
  7813. this point and remake the library from scratch (as is done every so
  7814. often), a lot of programs might not link anymore.  
  7815.  
  7816. i just checked for other missing links, and _builtin_new, _lshrsi3,
  7817. _subsf3, and _varargs all suffer from the same problem.
  7818.  
  7819. anyone know what happened here?
  7820.  
  7821.  
  7822.  
  7823.  
  7824. 553.
  7825. Date: Fri, 13 Oct 89 13:22:11 PDT
  7826. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7827. Subject: fs bug
  7828.  
  7829. Oregano just printed the following to its syslog:
  7830.  
  7831. BlockIOProc: firstSector(1862854) > lastSector (630107)
  7832. BlockIOProc: firstSector(1862854) > lastSector (630107)
  7833. ...
  7834. BlockIOProc: firstSector(7803064) > lastSector (630107)
  7835. BlockIOProc: firstSector(4644646) > lastSector (630107)
  7836.  
  7837. Somebody thought the disk was bigger than it actually was.  It looks like
  7838. BlockIOProc returns SUCCESS in this case.  Why doesn't it panic, or
  7839. at least return failure?
  7840.  
  7841.  
  7842.  
  7843. 554.
  7844. Date: Fri, 13 Oct 89 13:36:51 PDT
  7845. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  7846. Subject: rlogin trashed
  7847.  
  7848. /sprite/cmds.sun3/rlogin was overwritten with garbage at about 1:00 pm.
  7849. I noticed at about 12:59, at which point the descriptor had been
  7850. modified at 12:58:20.  The last descriptor modified time was 13:05:02.
  7851. I've moved the file to /sprite/trashed.  I can't make any sense of its
  7852. current contents so I have no idea who did it.
  7853.  
  7854.  
  7855.  
  7856. 555.
  7857. Date: Fri, 13 Oct 89 13:41:32 PDT
  7858. From: Fred Douglis <douglis>
  7859. Subject: Re: rlogin trashed 
  7860.  
  7861. the first string in the trashed file is a line from the loadavg
  7862. daemon.  looks like recovery got confused.  in fact, i'll bet i know
  7863. why: fenugreek was in the debugger, and i wanted to use it, and i had
  7864. no idea why brent (?) threw it into the debugger around 8am today so i
  7865. figured i'd continue it and see what happened.  that's about the time
  7866. the problem arose, now that i think of it.  also, rlogin was
  7867. continually being updated.  
  7868.  
  7869. the string occurs at offset 0, which is odd.  i would expect it to be
  7870. offset (8*187), which would be host 8's entry in the database file, or
  7871. at offset 0 in /hosts/fenugreek/migInfo, which is in a different
  7872. domain.
  7873.  
  7874.  
  7875.  
  7876.  
  7877. 556.
  7878. Date: Fri, 13 Oct 89 13:48:36 PDT
  7879. From: brent (Brent Welch)
  7880. Subject: Re: fs bug firstSector > lastSector
  7881.  
  7882.     BlockIOProc: firstSector(4644646) > lastSector (630107)
  7883.  
  7884.     Somebody thought the disk was bigger than it actually was.  It looks like
  7885.     BlockIOProc returns SUCCESS in this case.  Why doesn't it panic, or
  7886.     at least return failure?
  7887.  
  7888. The server shouldn't panic, of course.  What it does is return
  7889. SUCCESS and zero bytes transferred, because this emulates what
  7890. happens when you try to read past end-of-file.
  7891.  
  7892.  
  7893.  
  7894. 557.
  7895. Date: Fri, 13 Oct 89 13:49:15 PDT
  7896. From: rab (Robert A. Bruce)
  7897. Subject: dump 
  7898.  
  7899. The tape drive isn't working.  When I try to access it I get
  7900.  
  7901. /hosts/murder/dev/exabyte.norewind: connection timed out
  7902.  
  7903. and this message appears on murder's console:
  7904.  
  7905. Warning:  SCSI3 can't select SCSI3#0 Target 5 LUN 0
  7906.  
  7907. I checked all the cables and everything seems to be okay.  I tried
  7908. power cycling the tape drive, and tried a couple different tapes.
  7909. Then I tried booting an old kernel, but that didn't help either.
  7910.  
  7911. Since the tape didn't work, I put this morning's dump into
  7912. /t6/dump.lev1.13Oct.
  7913.  
  7914.  
  7915.  
  7916. 558.
  7917. Date: Fri, 13 Oct 89 13:55:29 PDT
  7918. From: pmchen (Peter M. Chen)
  7919. Subject: decstation cc error
  7920.  
  7921. I was in ~pmchen/verses/verse, and issued pm on forgery.  Here's what happened:
  7922.  
  7923. forgery% pm
  7924. --- ds3100.md/verse.o ---
  7925. rm -f ds3100.md/verse.o
  7926. cc  -g3 -O -Dds3100 -Dsprite -Uultrix -I/users/pmchen/lib/include -I.   -Ids3100.md -I/sprite/lib/include -I/sprite/lib/include/ds3100.md -c verse.c -o ds3100.md/verse.o
  7927. ccom: Warning: verse.c, line 140: statement not reached
  7928.           endwin();
  7929.       ------------^
  7930. (ccom): verse.c, line 141: ccom: Internal: schain botch
  7931.       }
  7932.       ^
  7933. *** Error code 1
  7934. pmake: 1 error
  7935.  
  7936. The same compile worked fine on nutmeg.  Any ideas?  Do we have the dec
  7937. compiler?
  7938.  
  7939.  
  7940.  
  7941. 559.
  7942. Date: Fri, 13 Oct 89 14:11:58 PDT
  7943. From: Fred Douglis <douglis>
  7944. Subject: sendmail
  7945.  
  7946. this is because thorsten was using an invalid "option" (Mail foo -c
  7947. bar) that confused sendmail.  sendmail works fine normally even if a
  7948. user is unknown.  there is a bug when sending to recipient "-c" but
  7949. this isn't related to sprite.
  7950.  
  7951.  
  7952.  
  7953. 560.
  7954. Date: Fri, 13 Oct 89 14:44:11 PDT
  7955. From: tve (Thorsten von Eicken)
  7956. Subject: flaky size on /bin/ls -ls
  7957.  
  7958. can someone explain the following (happens on ds3100 & sun4c, dunno sun3)
  7959. [gluttony tve] /bin/ls -ls worm-pipe 
  7960.   76 -rw-rw-r--  1 tve         72175 Oct 13 14:36 worm-pipe
  7961. [gluttony tve] cp worm-pipe foo
  7962. [gluttony tve] ls -ls worm-pipe foo
  7963.   71 -rw-rw-r--  1 tve         72175 Oct 13 14:42 foo
  7964.   76 -rw-rw-r--  1 tve         72175 Oct 13 14:36 worm-pipe
  7965. [gluttony tve] diff foo worm-pipe
  7966. [gluttony tve] 
  7967.  
  7968.  
  7969.  
  7970. 561.
  7971. Date: Fri, 13 Oct 89 14:45:26 PDT
  7972. From: tve (Thorsten von Eicken)
  7973. Subject: more flaky /bin/ls -ls
  7974.  
  7975. sorry, forgot to mention that an /bin/ls -ls after the diff yields:
  7976. [gluttony tve] ls -ls worm-pipe foo
  7977.   76 -rw-rw-r--  1 tve      mic         72175 Oct 13 14:42 foo
  7978.   76 -rw-rw-r--  1 tve      mic         72175 Oct 13 14:36 worm-pipe
  7979.  
  7980.  
  7981.  
  7982. 562.
  7983. Date: Fri, 13 Oct 89 14:49:11 PDT
  7984. From: tve (Thorsten von Eicken)
  7985. Subject: uncompress didn't work on sun4's (fixed)
  7986.  
  7987. compress did. I recompiled and reinstalled /a/attcmds/compress for sun4s.
  7988.  
  7989.  
  7990.  
  7991. 563.
  7992. Date: Fri, 13 Oct 89 15:22:22 PDT
  7993. From: brent (Brent Welch)
  7994. Subject: Re: more flaky /bin/ls -ls
  7995.  
  7996. You are experiencing the delayed-write caching of Sprite.
  7997. The indirect blocks are not allocated to the file until
  7998. it is written to disk, so they don't show up in the block
  7999. count until sometime after the file is created.  If write-back
  8000. caching worries you, remember that all Sprite editors use
  8001. fsync(), which really and truely forces files to disk.
  8002.  
  8003.  
  8004.  
  8005. 564.
  8006. Date: Tue, 10 Oct 89 01:56:12 PDT
  8007. From: tve (Thorsten von Eicken)
  8008. Subject: ds3100 cc seems to define "ultrix"
  8009.  
  8010. I know why this is so... I just wanted to point this out in case someone
  8011. ports software which uses #defines ...
  8012. The search for ..../include/sys/limits.h was dependent on ultrix
  8013. being defined, so maybe one can ignore my previous message!?
  8014.  
  8015.  
  8016.  
  8017. 565.
  8018. Date: Tue, 10 Oct 89 08:48:24 PDT
  8019. From: brent (Brent Welch)
  8020. Subject: RPC error
  8021.  
  8022. Thyme crashed while handling an open() because it got
  8023. an errant RPC reply from the server.  I've seen this before.
  8024. The RPC trace shows the problem:
  8025.  
  8026.  c3cc0 out   0.0000  Q  32 14  26 6 get attr    16     0     0  0  0   500
  8027.  c3cc0 in    0.0000  R  32 14  26 6 get attr   112     0     0  0  0   500
  8028.  c3cc1 out   0.0100  Q  32 14  26 6 open        92    15     0  0  0   500
  8029.  c3cc1 in    0.0100  R  32 14  26 6 open       112     0     0  0  0   500
  8030.  c3cc2 out   0.0000  Q  32 14  26 6 get attr    16     0     0  0  0   500
  8031.  c3cc2 out   0.1000 Qp  32 14  26 6 get attr    16     0     0  0  0   500
  8032.  c3cc2 in    0.0000  R  32 14  26 6 get attr   112     0     0  0  0   500
  8033.  c3cc3 out   0.0100  Q  32 14  26 6 open        92    15     0  0  0   500
  8034.  c3cc3 in    0.0000  R  32 14  26 6 get attr   112     0     0  0  0   500
  8035.  c3cc3 in    0.0000  R  32 14  26 6 open       112     0     0  0  0   500
  8036.  
  8037. See how RPC c3cc3 gets a "get attr" reply instead of an "open"  reply.
  8038. Apparently thyme resent its "get attr" request at about the same time
  8039. that mint replied.  Then, after it issued its open request it
  8040. picked up the retransmitted RPC "get attr" reply instead of the
  8041. open reply.  My hunch is that perhaps the "get attr" reply was sitting
  8042. in thyme's input buffer already, at the time the open request was
  8043. issued, and the client dispatcher is erroneously picking it up.
  8044.  
  8045.  
  8046.  
  8047. 566.
  8048. Date: Tue, 10 Oct 89 08:56:20 PDT
  8049. From: douglis (Fred Douglis)
  8050. Subject: loadavg recovery problem
  8051.  
  8052. After the file servers rebooted, i noticed that "finger" didn't list
  8053. many people.  turns out several hosts were listed as down.  this was still
  8054. true after about a half hour.  logging into them must have triggered
  8055. recovery, however, since within a minute of logging into the two i tried out,
  8056. they were listed as up again.
  8057.  
  8058.  
  8059.  
  8060. 567.
  8061. Date: Tue, 10 Oct 89 10:10:55 PDT
  8062. From: Fred Douglis <douglis>
  8063. Subject: repeating console write bug found
  8064.  
  8065. ... I hope.
  8066. Turns out that when the buffer overflowed in Dev_SyslogWrite, it
  8067. wouldn't subtract the amount written directly to the console, so it
  8068. would return that 0 bytes were written and Fs_Write would try again.
  8069. My reasoning is that this would happen anytime a user process wrote to
  8070. /dev/syslog when the buffer was full (but not for printfs in the
  8071. kernel, which is why we don't see the problem more often).  
  8072.  
  8073. I'm remaking dev and will include this fix in the new kernels I'm
  8074. going to build today.  I hope to push this stuff out to "new" as quickly
  8075. as possible since I want to start gathering statistics anyway.  
  8076.  
  8077.  
  8078.  
  8079. 568.
  8080. Date: Sat, 14 Oct 89 12:54:50 PDT
  8081. From: mgbaker (Mary Gray Baker)
  8082. Subject: Something funny with /dev/syslog?
  8083.  
  8084. If I execute "cat /dev/syslog", it returns "/dev/syslog: invalid argument".
  8085. This means no syslog window.  Does anyone know of something that changed
  8086. recently?
  8087.  
  8088.  
  8089.  
  8090. 569.
  8091. Date: Sat, 14 Oct 89 13:03:51 PDT
  8092. From: brent (Brent Welch)
  8093. Subject: Fsutil_HandleInstall
  8094.  
  8095. I finally saw the bug in Fsutil_HandleInstall that has
  8096. been bothering me for some time.  Handle installation
  8097. is sort of divided into two parts so that memory
  8098. allocation can be done outside the Handle monitor lock.
  8099. An external routine does a Fsutil_HandleFetch to see if the
  8100. handle is already there.  If it isn't, it allocates memory
  8101. and then drops in to HandleInstallInt routine to install
  8102. the handle under the monitor lock.  The bug occurred if the handle appeared in
  8103. the hash table in between the initial Fetch and the
  8104. subsequent InstallInt.  The InstallInt was clever enough to
  8105. recheck for the existence of the handle, but it wasn't clever
  8106. enough to return it!  The external routine always assumed that
  8107. the memory it allocated was the used for the handle,
  8108. but that could be wrong.  The result was a garbage handle
  8109. being returned from Fsutil_HandleInstall.  I had been suspecting
  8110. the LRU replacement stuff, but I kept overlooking the obvious bug.
  8111. Anyway, Oregano crashed during recovery with a garbage handle
  8112. and this prompted be to look at the code again.  I've rebooted
  8113. Oregano (while pounding on its file systems with process migration)
  8114. and it works ok.  I'm going to add a little "would-have-crashed"
  8115. print statement and reboot it again to make sure I'm exercicing
  8116. the error case.
  8117.  
  8118.  
  8119.  
  8120. 570.
  8121. Date: Sat, 14 Oct 89 13:05:39 PDT
  8122. From: brent (Brent Welch)
  8123. Subject: Watchdog Reset during migraiton and recovery
  8124.  
  8125. I started a pmake on sage and then rebooted Oregano.
  8126. After Sage recovered its handles and started compiling
  8127. again it suddenly got a Watchdog Reset.  I assume that
  8128. some migration related call didn't quite work right.
  8129.  
  8130. ps.  Thyme was also doing a pmake, but it survived.
  8131.  
  8132.  
  8133. 571.
  8134. Date: Sat, 14 Oct 89 13:56:06 PDT
  8135. From: mgbaker (Mary Gray Baker)
  8136. Subject: weirdness linting?
  8137.  
  8138. I've been trying to lint the net module.  If I execute lintsun4c in one
  8139. window, it will try linting it.  If I execute it in another window, it says
  8140. it doesn't know how to lintsun4c.  It used to know how a few minutes ago.
  8141. The environments, etc, appear to be identical in the 2 windows.  Could
  8142. somebody tell me what's happening here?
  8143.  
  8144. I'm executing all of this on a sun3.
  8145.  
  8146.  
  8147.  
  8148. 572.
  8149. Date: Sun, 15 Oct 89 15:41:47 PDT
  8150. From: mgbaker (Mary Gray Baker)
  8151. Subject: compiler problem for sun4c net module
  8152.  
  8153. The compiler is generating signed byte loads instead of unsigned byte loads
  8154. to access the fields of this structure:
  8155.  
  8156. /*
  8157.  *  Descriptor Ring Pointer (page 21) (Byte swapped. )
  8158.  *  Also,
  8159.  */
  8160. typedef struct NetLERingPointer {
  8161.     unsigned short      ringAddrLow     :16;    /* Low order ring address.
  8162.                                                  * Must be quad word aligned.
  8163.                                                  */
  8164.     unsigned int        logRingLength   :3;     /* log2 of ring length. */
  8165.     unsigned int                        :5;     /* Reserved */
  8166.     unsigned int        ringAddrHigh    :8;     /* High order ring address. */
  8167. } NetLERingPointer;
  8168.  
  8169.  
  8170. For instance, in the broken version it generates:
  8171.  
  8172. 0xf605148c <NetLEReset+240>:    ldsb [o0+0x16],o1
  8173. 0xf6051490 <NetLEReset+244>:    and o1,0x1f,o1
  8174. 0xf6051494 <NetLEReset+248>:    or o1,0x80,o1
  8175. 0xf6051498 <NetLEReset+252>:    stb o1,[o0+0x16]
  8176. 0xf605149c <NetLEReset+256>:    add l0,0x4,o1
  8177.  
  8178. while in the working version it generates:
  8179.  
  8180. 0xf6051478 <NetLEReset+220>:    ldub [o0+0x12],o1
  8181. 0xf605147c <NetLEReset+224>:    and o1,0x1f,o1
  8182. 0xf6051480 <NetLEReset+228>:    or o1,0x80,o1
  8183. 0xf6051484 <NetLEReset+232>:    stb o1,[o0+0x12]
  8184. 0xf6051488 <NetLEReset+236>:    add l0,0x4,o1
  8185.  
  8186. for the source code line 259 in netLE.c:
  8187.  
  8188. 259        initPtr->recvRing.logRingLength = NET_LE_NUM_RECV_BUFFERS_LOG2;
  8189.  
  8190. The kernels to compare are sun4c.broken and sun4c.works in my kernel
  8191. directory.  They are identical except that in the working version, the net
  8192. net module was compiled with the old compiler and assembler.  Both were
  8193. compiled with optimization on in the net module.
  8194.  
  8195. Didn't we go through this once before when we first switched to gcc and the
  8196. new assembler?  Sometime in mid-July?  I have it in my log book as being
  8197. July 14th.
  8198.  
  8199.  
  8200.  
  8201. 573.
  8202. Date: Sun, 15 Oct 89 16:20:10 PDT
  8203. From: deboor@buddy.Berkeley.EDU (Adam R de Boor)
  8204. Subject: Re: compiler problem for sun4c net module
  8205.  
  8206. in the code you sent, it doesn't matter much if it does an unsigned or a signed
  8207. load, since it immediately ands the result with 0x1f. What is of more
  8208. concern, I should think, is the four-byte difference in the offset used to
  8209. access the field, no?
  8210.  
  8211.  
  8212.  
  8213. 574.
  8214. Date: Sun, 15 Oct 89 16:58:45 PDT
  8215. From: tve (Thorsten von Eicken)
  8216. Subject: gluttony in weird state IP is up, RPC is down
  8217.  
  8218. loadavgd lists it as being down.
  8219. rpccmd -ping times out
  8220. /sprite/cmds/ping answers (!) but with ~300ms delay
  8221. what's that? I think I had it once before. Is the kernel dead but the
  8222. user processes still alive? (huh?)
  8223.  
  8224.  
  8225.  
  8226. 575.
  8227. Date: Mon, 16 Oct 89 11:47:35 PDT
  8228. From: root (The Sprite God)
  8229. Subject: No add host script
  8230.  
  8231. There obviously isn't a script that adds a Sprite to the
  8232. network because there were a number of details left out
  8233. regarding Garlic (a.k.a. Mustard).  The symbolic link for
  8234. its swap directory was wrong, and there wasn't an entry
  8235. for it in /sprite/boot.
  8236.  
  8237.  
  8238.  
  8239. 576.
  8240. Date: Mon, 16 Oct 89 11:48:28 PDT
  8241. From: root (The Sprite God)
  8242. Subject: network routing
  8243.  
  8244. We need to fix network routing for Sprite.  When Mustard
  8245. changed its identity to Garlic we had to rerun netroute
  8246. on every host so that the ReverseArp done at boot time
  8247. got the correct SpriteID back.
  8248.  
  8249.  
  8250.  
  8251. 577.
  8252. Date: Mon, 16 Oct 89 11:50:10 PDT
  8253. From: root (The Sprite God)
  8254. Subject: yp ethers needed for Sprite sun3s
  8255.  
  8256. It turns out that an entry in the yp ethers databas
  8257. is needed in order for a Sun3 to find out its
  8258. Internet Address during bootstrap.  Apparently
  8259. Sprite doesn't properly do RARP.  Furthermore,
  8260. manually adding an arp entry on ginger didn't help.
  8261. Only until I updated /etc/ethers and did a ypmake
  8262. was Garlic (a.k.a. Mustard) able to get an Internet address.
  8263.  
  8264.  
  8265.  
  8266. 578.
  8267. Date: Mon, 16 Oct 89 11:51:55 PDT
  8268. From: shirriff (Ken Shirriff)
  8269. Subject: anise->ginger rcp
  8270.  
  8271. When I try to rcp a kernel from anise to ginger, the rcp seems to go
  8272. into the twilight zone after copying, say, 188416 or 24576 bytes.  After
  8273. that nothing happens.
  8274. Also, "size" on the sun4 returns exit status 2, causing my pmake to quit
  8275. unless I do pmake -i.
  8276.  
  8277.  
  8278.  
  8279. 579.
  8280. Date: Mon, 16 Oct 89 11:56:29 PDT
  8281. From: root (The Sprite God)
  8282. Subject: ds3100 need yp ethers entry, too
  8283.  
  8284. It turns that Sprite DecStations also need an entry in
  8285. the YP ethers database so they too can ReverseArp
  8286. and discover their Internet Address.  We need to fix
  8287. Sprite so it can do its own ReverseArp.
  8288.  
  8289.  
  8290.  
  8291. 580.
  8292. Date: Mon, 16 Oct 89 12:30:50 -0700
  8293. From: bks@okeeffe.Berkeley.EDU (Brian K. Shiratsuki)
  8294. Subject: yp ethers needed for Sprite sun3s
  8295.  
  8296. i see.  i purposefully deleted the entries from the sunos tables
  8297. because i didn't want the sun servers to compete with the sprite
  8298. server(s).
  8299.  
  8300.  
  8301.  
  8302. 581.
  8303. Date: Tue, 17 Oct 89 10:10:17 PDT
  8304. From: brent (Brent Welch)
  8305. Subject: bib broken
  8306.  
  8307. bib was ported to Sprite some time ago, but it doens't
  8308. quite work right.  In a short paper with four references
  8309. it uses the last reference for all of them!  The citations
  8310. are [author88a] [author88b] and so on, and at the end
  8311. the last citation is repeated four times.  The example
  8312. is in ~brent/doc/wwos.89 . There is a Makefile there.
  8313.  
  8314.  
  8315.  
  8316. 582.
  8317. Date: Tue, 17 Oct 89 11:01:32 PDT
  8318. From: Fred Douglis <douglis>
  8319. Subject: proc_serverproc needs to be dynamic
  8320.  
  8321. background server processes should be handled like rpc_servers --
  8322. created when needed, up to a large limit, and reclaimed when not
  8323. needed.  otherwise we run into problems like brent's needing to have a
  8324. separate recovery process, or kernels getting wedged when all the server
  8325. processes go to sleep on some condition.
  8326.  
  8327.  
  8328.  
  8329. 583.
  8330. Date: Tue, 17 Oct 89 12:26:10 PDT
  8331. From: mgbaker (Mary Gray Baker)
  8332. Subject: kgdb.sun4 goes into the debugger
  8333.  
  8334. On murder, I was debugging covet with kgdb.sun4.  I did a "pid 0xc"
  8335. commmand and it seg faulted.  Here is the stack trace:
  8336.  
  8337. #0  0x44310 in Fs_Read ()
  8338. #1  0x4018a in read ()
  8339. #2  0x98bc in myread (desc=6, addr=(caddr_t) 0x9ca2c20 "", len=3394721) (core.c line 459)
  8340. #3  0xc94e in psymtab_to_symtab (pst=(struct partial_symtab *) 0xc9334) (dbxread.c line 2739)
  8341. #4  0x2f1d2 in find_pc_symtab (pc=4127256644) (symtab.c line 1122)
  8342. #5  0x2c266 in select_frame (frame=(FRAME) 0x172cbc, level=0) (stack.c line 615)
  8343. #6  0x1ad72 in normal_stop () (infrun.c line 1084)
  8344. #7  0x1a028 in start_remote () (infrun.c line 414)
  8345. #8  0x288fa in remote_attach (pid=12) (remote.c line 262)
  8346. #9  0x1bd22 in pid_command (args=(caddr_t) 0x7dcbc "0xc", from_tty=1) (kgdbcmd.c line 89)
  8347. #10 0x1cb58 in execute_command (p=(caddr_t) 0x7dcbc "0xc", from_tty=1) (main.c line 481)
  8348. #11 0x1cc2a in command_loop () (main.c line 507)
  8349. #12 0x1ca14 in main (argc=2, argv=(caddr_t *) 0x9fdfd04, envp=(caddr_t *) 0x9fdfd10) (main.c line 434)
  8350.  
  8351.  
  8352.  
  8353. 584.
  8354. Date: Tue, 17 Oct 89 12:29:09 PDT
  8355. From: mgbaker (Mary Gray Baker)
  8356. Subject: deadlock on covet
  8357.  
  8358. Before the debugger crashed, I got the following info about the deadlock
  8359. on covet:
  8360.  
  8361. The deadlock was over the schedMutex lock.  The process holding the lock
  8362. was the "su" program.  It was grabbing the lock in Sched_LockAndSwitch().
  8363.  
  8364. The current process was the ipServer.  It was grabbing the lock in
  8365. Sched_GatherProcessInfo().
  8366.  
  8367.  
  8368.  
  8369. 585.
  8370. Date: Wed, 18 Oct 89 12:49:03 PDT
  8371. From: brent (Brent Welch)
  8372. Subject: Vm_Stat.kernMemPages wrong on ds3100
  8373.  
  8374. The kernMemPages value looks more like a byte count
  8375. as opposed to a page count.  On pepper, for example,
  8376. it is currently 1050532.
  8377.  
  8378. Actually, the kernel page count on pepper is 1050532 / 4,
  8379. or 262633.  It isn't clear yet what this number is.
  8380.  
  8381. The kernMemPages field includes a very large hole
  8382. in the VM address space.  The kernel code is loaded
  8383. at 0x80000000, while the data is loaded at 0xc0000000,
  8384. and the kernMemPages is wrongly calculated by subtracting
  8385. the start of the code from the end of the data.  I can
  8386. account for this with the data I've already taken, but
  8387. I think John H. understands how to fix this.
  8388.  
  8389.  
  8390.  
  8391. 586.
  8392. Date: Wed, 18 Oct 89 19:28:21 PDT
  8393. From: eklee (Edward K. Lee)
  8394. Subject: tx window disappeared
  8395.  
  8396. I was running a shellscript on sassafras from forgery when after about
  8397. 20 minutes or so, I got the following message to my syslog and
  8398. my window to sassafras died along with whatever I happend to be running.
  8399. PdevWrite: signal 14
  8400. PdevWrite: signal 14
  8401. PdevWrite: signal 14
  8402.  
  8403. This is the second time that this has happend to me.
  8404.  
  8405.  
  8406.  
  8407. 587.
  8408. Date: Thu, 19 Oct 89 10:39:48 PDT
  8409. From: brent (Brent Welch)
  8410. Subject: Allspice crash
  8411.  
  8412. Allspice died with a recursive TtyBufferOverflow.  It was streaming
  8413. this message to its console and not responding to any interrupts.
  8414. I had accidentally used the more program and driven the terminal
  8415. into a goofy state.  I just left it that way because it hasn't
  8416. always worked for me to power cycle the terminal.  Perhaps I
  8417. should have tried that.  Sometime later the crash occurred,
  8418. I think there were at least several hours in between when
  8419. I wedged the terminal (I think around noon time) and when
  8420. Allspice crashed at about 6:25.
  8421.  
  8422.  
  8423.  
  8424. 588.
  8425. Date: Thu, 19 Oct 89 11:30:28 PDT
  8426. From: mgbaker (Mary Gray Baker)
  8427. Subject: tx in debugger on sparcstations
  8428.  
  8429. Tx frequently dies on the sparcstation.  If I remember correctly, which I seem
  8430. to do with decreasing frequency, Mendel reported a tx problem on the sun3
  8431. where it died with its pc set to the instruction after a select trap.  That's
  8432. what's happening here.
  8433.  
  8434. #0  0x481ec in Fs_RawSelect ()
  8435. #1  0x3b5fc in Fs_Dispatch ()
  8436. #2  0x2214 in main () (tx.c line 135)
  8437. #3  0x3b024 in start ()
  8438.  
  8439. 0x481e0 <Fs_RawSelect>:        sethi    %hi(0x0),%g1
  8440. 0x481e4 <Fs_RawSelect+4>:    or    %g1, 72, %g1    ! 0x48
  8441. 0x481e8 <Fs_RawSelect+8>:    t    3, %g0    !0x3
  8442. 0x481ec <Fs_RawSelect+12>:    jmpl    %o7, 8, %g0    ! 0x8
  8443. 0x481f0 <Fs_RawSelect+16>:    nop
  8444.  
  8445.  
  8446.  
  8447. 589.
  8448. Date: Thu, 19 Oct 89 11:32:04 PDT
  8449. From: mgbaker (Mary Gray Baker)
  8450. Subject: more on tx
  8451.  
  8452. And if I detach the program in the debugger, tx picks up and keeps
  8453. running fine.  I believe Mendel mentioned that funny aspect as well.
  8454.  
  8455.  
  8456.  
  8457. 590.
  8458. Date: Thu, 19 Oct 89 17:45:25 PDT
  8459. From: brent (Brent Welch)
  8460. Subject: inetd on mint
  8461.  
  8462. inetd went infinite on mint.  I did a gcore into
  8463. /sprite/src/daemons/inetd/inetd.core.8200e
  8464. However, the stack backtrace is simply #0  0xc658 in Sig_SetHoldMask ()
  8465. so perhaps gcore isn't the right thing to figure out infinite loops.
  8466. If someone knows gdb better they can try to figure things out.
  8467.  
  8468.  
  8469.  
  8470. 591.
  8471. Date: Fri, 20 Oct 89 08:49:00 PDT
  8472. From: brent (Brent Welch)
  8473. Subject: Allspice network interface reset
  8474.  
  8475. When I came in Friday morning Allspice was in slow mode.
  8476. An rpcecho reported timeouts 110 resends 110 acks 11 in 100 attempts!
  8477. I reset its network interface by hitting break-n on its console,
  8478. and now it seems fine.
  8479.  
  8480.  
  8481.  
  8482. 592.
  8483. Date: Fri, 20 Oct 89 11:53:29 PDT
  8484. From: pmchen (Peter M. Chen)
  8485. Subject: fatal error in /sprite/cmds/vi
  8486.  
  8487. I've been getting these off and on.  It goes away the second time I issue
  8488. the vi, but it is kind of disconcerting.  Any ideas about why these have
  8489. been popping up?  Anyone else experiencing these?
  8490.  
  8491. The error is occuring on the decstation.
  8492.  
  8493.  
  8494.  
  8495. 593.
  8496. Date: Fri, 20 Oct 89 12:44:45 PDT
  8497. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  8498. Subject: spur spritemon broken
  8499.  
  8500. The new spritemon doesn't work on the spur.  It dies in XtInitialize.
  8501. I've replaced it with the old version.
  8502.  
  8503.  
  8504.  
  8505. 594.
  8506. Date: Fri, 20 Oct 89 15:00:58 PDT
  8507. From: brent (Brent Welch)
  8508. Subject: mint overload on friday
  8509.  
  8510. Mint died on friday, after being up almost a week.
  8511. It was struggling along when I went to investigate it,
  8512. spending most of its time generating
  8513. TtyInputBufferOverflow
  8514. messages, along with messages about clients recovering, etc.
  8515. I'm not sure what triggered the situation, but it eventually
  8516. got so bogged down printing error messages that it couldn't
  8517. make forward progress.  I eventually got some keystrokes
  8518. through, enough to sync the disks and hurl it into the
  8519. debugger.  The main thing I noticed from the debugger was
  8520. that several processes were in the ready state, but
  8521. presumably they weren't scheduled because of the heavy
  8522. tty traffic.  On an up note, when I rebooted mint I
  8523. got my little print statement indicating that the bug
  8524. concerning returning garbage handles was successfully
  8525. tested.  Mint would have died during recovery if this
  8526. hadn't been fixed.  On a down note, each client had to
  8527. recover an average of 3 times before things settled down.
  8528. 89 recovery attempts were made, and 20585 reopen RPCs
  8529. were serviced.  The last client finished recovery 5 minutes
  8530. and 40 seconds after mint enabled its RPC service.
  8531.  
  8532.  
  8533.  
  8534. 595.
  8535. Date: Fri, 20 Oct 89 15:12:14 PDT
  8536. From: Fred Douglis <douglis>
  8537. Subject: Re: mint overload on friday 
  8538.  
  8539. that ttyinputbufferoverflow message is a pain in the neck.  when i
  8540. look at the tty stuff to see about processing at interrupt time, I can
  8541. also put in a check so this message is printed only once....
  8542.  
  8543.  
  8544.  
  8545.  
  8546. 596.
  8547. Date: Fri, 20 Oct 89 15:52:11 PDT
  8548. From: Fred Douglis <douglis>
  8549. Subject: update not setuid
  8550.  
  8551. the ds3100 version of update, dated 10/3, was not setuid to root.  Did
  8552. someone install this by hand or something?
  8553.  
  8554.  
  8555.  
  8556. 597.
  8557. Date: Fri, 20 Oct 89 19:03:34 PDT
  8558. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  8559. Subject: lprm bug
  8560.  
  8561.  
  8562. If I queue a print job on a ds3100, it won't work (known bug), and then
  8563. if I try to run lprm on a sun3 to delete the job I get:
  8564.  
  8565. cfA025hijack.Berkeley.EDU: Permission denied
  8566.  
  8567.  
  8568.  
  8569.  
  8570. 598.
  8571. Date: Fri, 20 Oct 89 19:15:59 PDT
  8572. From: pmchen (Peter M. Chen)
  8573. Subject: Re: login: must be root to override defaults
  8574.  
  8575. Yes, I restarted inetd on mustard by hand.   This was necessary because on
  8576. the decstations, you can't kill X and restart it without killing and
  8577. restarting inetd and ipserver by hand.
  8578.  
  8579. How should I make sure inetd has a clear environment?  Start it up as
  8580. root?
  8581.  
  8582.  
  8583.  
  8584. 599.
  8585. Date: Sun, 22 Oct 89 13:32:00 PDT
  8586. From: brent (Brent Welch)
  8587. Subject: Assault crash, out of memory?
  8588.  
  8589. Assault hung today, after being up 8 days.
  8590. I think it ran out of memory, but I can't
  8591. be sure because the ds3100.1.032 kernel was
  8592. carefully removed from all hosts!  I think
  8593. I already complained about this.  Perhaps
  8594. with our huge /sprite/src/kernel partition
  8595. we won't be so hasty when removing kernel images.
  8596. For the N'th time, never remove a kernel image
  8597. if a file server is running it.  This is easy
  8598. to check, and unforgivable. (well, I'll forgive
  8599. you this time.)  Anyway, I've rebooted Assault
  8600. with JHH.192.  Don't even think about removing this
  8601. kernel.  This kernel lets the kernel and the fs cache
  8602. grow much larger, so Assault shouldn't croak.
  8603.  
  8604.  
  8605.  
  8606.  
  8607. 600.
  8608. Date: Sat, 21 Oct 89 15:50:34 PDT
  8609. From: brent (Brent Welch)
  8610. Subject: Changing a domain's identity
  8611.  
  8612. A weakness in the current prefix table stuff showed
  8613. up when we moved /sprite/src/kernel to allspice.
  8614. While we first unmounted /sprite/src/kernel from
  8615. Oreagno and remounted that domain as /sprite/src/kernel.old,
  8616. the internal domain number didn't change.  This meant
  8617. that clients which had prefix table entries for /sprite/src/kernel
  8618. with the old token from Oregano were still accessing Oregano.
  8619. What we need to do is change the internal domain number
  8620. so the tokens (fileIDs) on the clients become invalid.
  8621. John H. suggested that at boot time a server could check
  8622. to see if its mounting a disk under the same prefix
  8623. as before.  This information is kept in the domain's
  8624. summary sector on disk.h
  8625.  
  8626.  
  8627.  
  8628. 601.
  8629. Date: Mon, 16 Oct 89 14:33:43 PDT
  8630. From: Fred Douglis <douglis>
  8631. Subject: gethostname problem
  8632.  
  8633. gethostname was changed sometime about a month ago to call
  8634. Proc_GetHostIDs rather than Sys_GetMachineInfo.  Unfortunately, it
  8635. calls it to get the physical host rather than the virtual host, which
  8636. means "hostname" and anything else that uses it will detect that
  8637. migration has occurred.  Is this a goof or was it intentional?  I'm
  8638. changing it to return the hostname for the home node.  the world may
  8639. need to be relinked.
  8640.  
  8641.  
  8642.  
  8643.  
  8644. 602.
  8645. Date: Mon, 16 Oct 89 17:20:24 PDT
  8646. From: pmchen (Peter M. Chen)
  8647. Subject: official bug report on gremlin
  8648.  
  8649. This is the official bug report version of the gremlin problem I mailed to spriters:
  8650.  
  8651. Ed and I have been trying to use gremlin on the ds3100's and have gotten
  8652. a lot of weird things happening.
  8653.  
  8654. 1) When you put down a point, black blobs often come on the screen.
  8655. 2) The shift and control keys don't do what they're supposed to.  Instead,
  8656.    they seem to repeat the last command issued.
  8657.  
  8658. 3) the help screen is really garbled.
  8659.  
  8660. Fred and John H. report that they've also run into these problems, which
  8661. make gremlin extremely painful to use.
  8662.  
  8663.  
  8664.  
  8665.  
  8666. 603.
  8667. Date: Mon, 16 Oct 89 18:33:16 PDT
  8668. From: eklee (Edward K. Lee)
  8669. Subject: ds3100 crashes with FP exception in kernel
  8670.  
  8671. I was running Sprite version 1.032 (ds3100).
  8672. Running ~eklee/simtest/simtest from X causes the kernel to crash with a FP
  8673. exception.  I was able to repeat this three times consecutively.
  8674. (Could trashing machine registers from user mode cause this to happen?)
  8675.  
  8676.  
  8677.  
  8678.  
  8679. 604.
  8680. Date: Mon, 16 Oct 89 20:40:24 PDT
  8681. From: brent (Brent Welch)
  8682. Subject: Oregano's network interface
  8683.  
  8684. Sometime around 6:30pm Monday night Oregano's
  8685. network interface went out-to-lunch.  I came
  8686. in and noticed a number of error messages and
  8687. some recovery stuff.  When I tried to do things
  8688. like grep through system code there was essentially
  8689. no progress until I hit L1-n on Oregano's keyboard
  8690. to reset its interface.  Someone (Mendel?) needs
  8691. to figure out how to put in a watchdog on this
  8692. flakey Intel interface.
  8693.  
  8694.  
  8695.  
  8696. 605.
  8697. Date: Sun, 22 Oct 89 17:32:54 PDT
  8698. From: tve (Thorsten von Eicken)
  8699. Subject: gdb problems on sun4
  8700.  
  8701. I can't manage to get to variables. I always get the message
  8702. 'No symbol "foo" in current context'.
  8703. Is this known? Am I missing something? I compiled with -g, and no optimization.
  8704. Something funny though: when the symbol-file is read, I get an error message:
  8705.  
  8706. Reading symbol data from /mic/X11R3/src/cmds/Xsp/sun4.md/Xsp...done.
  8707. Type "help" for a list of commands.
  8708. (gdb) Warning: Unknown symbol-type code `P' at symtab pos 296.
  8709.  
  8710. The sameprogram, compiled for the sun3, loads into gdb without error.
  8711.  
  8712.  
  8713.  
  8714. 606.
  8715. Date: Sun, 22 Oct 89 19:19:02 PDT
  8716. From: tve (Thorsten von Eicken)
  8717. Subject: mkmf handles file named "version.h" specially
  8718.  
  8719. this is NOT said in the manual, as far as I can remember!
  8720.     Thorsten
  8721. (and I don't think it's a nice idea either)
  8722.  
  8723.  
  8724.  
  8725. 607.
  8726. Date: Sun, 22 Oct 89 19:37:45 PDT
  8727. From: tve (Thorsten von Eicken)
  8728. Subject: mkmf/pmake doesn't know how to make sun4.md/lex.o from lex.l
  8729.  
  8730. on the sun3 and ds3100 everything is fine. on the sun4 i get a
  8731. pmake: Can't figure out how to make sun4.md/lex.o. Stop
  8732. error. I did many mkmf's, pmake tidy, etc.. no change. weird!
  8733.  
  8734.  
  8735.  
  8736. 608.
  8737. Date: Mon, 23 Oct 89 10:16:35 PDT
  8738. From: shirriff (Ken Shirriff)
  8739. Subject: tx refresh on ds3100
  8740.  
  8741. If I clear a tx window and then select "Set Termcap" from the "Control"
  8742. window, on the decstation, the window scrolls before the menu
  8743. disappears, leaving a white rectangle on the normally gray part of
  8744. the window.  This doesn't happen on the sun3.
  8745.  
  8746.  
  8747.  
  8748. 609.
  8749. Date: Mon, 23 Oct 89 18:37:56 PDT
  8750. From: tve (Thorsten von Eicken)
  8751. Subject: on sun4, pmake of bigcmdtop doesn't always do the final link
  8752.  
  8753. It always goes down the subdirs and produces the linked.o, but it
  8754. won't always do the final link of all the linked.o into the command.
  8755. The behaviour is not consistently repeatable. It happens with
  8756. /mic/X11R3/src/cmds/Xsp (the X11R3 server).
  8757.  
  8758.  
  8759.  
  8760. 610.
  8761. Date: Mon, 23 Oct 89 19:25:13 PDT
  8762. From: tve (Thorsten von Eicken)
  8763. Subject: is the cc man page up-to-date with gcc 1.36?
  8764.  
  8765. It doesn't seems so... the comments for -gg are out of date, -fcombine_regs
  8766. doesn't exists any more, etc...
  8767.  
  8768.  
  8769.  
  8770.  
  8771. 611.
  8772. Date: Tue, 24 Oct 89 10:12:14 PDT
  8773. From: brent (Brent Welch)
  8774. Subject: mint crash
  8775.  
  8776. Mint died last night after /sprite filled up.  After it ran out
  8777. of paper it sort of hung, and then when I added paper I got
  8778. the good old "TtyInputBufferOverflow" problem.  Apparently
  8779. all the Proc_ServerProc's were stuck on something.  It is
  8780. possible they were hung on recovery with Oregano.  Oregano
  8781. died for a different reason, a consistency check in the
  8782. Reopen code that shouldn't have been there.  Perhaps we
  8783. should dedicate a process to tty input?  I had to do this
  8784. for recovery pinging because of similar problems.  Historically
  8785. we used to have several different kernel processes for different
  8786. tasks, but Mike Nelson gradually changed most things over to
  8787. use Proc_CallFunc.  These are subject to starvation, mainly
  8788. because they are used to handle page faults, and a crashed
  8789. server can block page faults, thereby using up the Proc_ServerProcs.
  8790. In this case, I don't think creating more Proc_ServerProcs is
  8791. the right solution.  Restructuring the page fault code so the
  8792. retry is done at a higher-level, not using a Proc_ServerProc
  8793. would be best.
  8794.  
  8795.  
  8796.  
  8797. 612.
  8798. Date: Tue, 24 Oct 89 11:03:27 PDT
  8799. From: Fred Douglis <douglis>
  8800. Subject: /tmp
  8801.  
  8802. the remote link for /tmp disappeared sometime recently.  i was unable
  8803. to start up X properly a few minutes ago.  anyone know the last time
  8804. they're sure /tmp was still around?  we might be able to focus on a
  8805. recent reboot (like my own machine, or some other) as a culprit.
  8806.  
  8807.  
  8808.  
  8809.  
  8810. 613.
  8811. Date: Tue, 24 Oct 89 14:15:26 PDT
  8812. From: brent (Brent Welch)
  8813. Subject: bootp infinite
  8814.  
  8815. A bootp went infinite on mint.  I took a quick look at
  8816. it was in Fs_RawRead, which is called from recvfrom(),
  8817. which is called from main line 165.  I suspect some
  8818. bug in the interaction with the retry loop in Fs_RawRead.
  8819.  
  8820.  
  8821.  
  8822. 614.
  8823. Date: Tue, 24 Oct 89 17:51:37 PDT
  8824. From: shirriff (Ken Shirriff)
  8825. Subject: nm on ds3100
  8826.  
  8827. If I do nm ds3100.md/libc.o | grep errno I get
  8828.     V  errno
  8829. The man page says nothing about what "V" means.  Anyone know?
  8830.  
  8831.  
  8832.  
  8833. 615.
  8834. Date: Tue, 24 Oct 89 18:19:59 PDT
  8835. From: brent (Brent Welch)
  8836. Subject: Re: Mx death (bad disk mapping?)
  8837.  
  8838. Hmm.  There shouldn't be any fragmenting going on out that
  8839. far in the file.  Nothing is fragmented beyond 40K, and
  8840. 0xe000 is at 57K.  0x1e000 is 64K later.  This isn't
  8841. even block aligned.  I don't think its RPC fragmenting
  8842. because that isn't neatly aligned anyway, it crams as
  8843. much as possible into each packet.  It doesn't look like
  8844. a cache hashing bug because that uses the standard
  8845. hash function, multiply by a large prime, add 12345, etc.
  8846. (light bulb goes on)
  8847. It could be a disk alignment bug, what with our fancy
  8848. mapping of blocks onto sectors.  64K is about a track size...
  8849. Hmm, mint has a track size of 23K on its eagle, but blocks
  8850. do overlap on adjacent tracks by 6K.  It is quite possible
  8851. there is some overlap that I don't expect because the drive
  8852. is out smarting me, similar to what we experienced on /mic,
  8853. althrough rarer because its due to sector slipping.  What we
  8854. should do the next time we have one of these botched files is
  8855. determine what the disk block numbers involved are.
  8856.     brent
  8857. (If that isn't clear, it seems possible that the last block
  8858. in a cylinder is somehow mapped back onto another block
  8859. in the same cylinder.  I'm note sure exactly.  I do know
  8860. that things packed quite neatly into cylinders on the Eagles:
  8861.     ----------------------------------------------------
  8862.     |..1.....|..2.....|..3.....|..4.....|..5.....|..6...    track 1
  8863.     ----------------------------------------------------
  8864.     ..|..7.....|..8.....|..9.....|..10....|..11....|..12    track 2
  8865.     ----------------------------------------------------
  8866.     ....|..13....|..14....|..15....|..16....|..17....|..    track 3
  8867.     ----------------------------------------------------
  8868.     .18...|..19....|..20....|..21....|..22....|..23....|    track 4
  8869.     ----------------------------------------------------
  8870. 20 tracks in all, this pattern is repeated 5 times per cylinder.
  8871. If the drive is stealing a block from me due to a bad sector,
  8872. I don't know what might happen.)
  8873.  
  8874.  
  8875.  
  8876.  
  8877. 616.
  8878. Date: Wed, 25 Oct 89 10:00:12 PDT
  8879. From: brent (Brent Welch)
  8880. Subject: Warning: receiver framing error on mouse
  8881.  
  8882. Either sage's mouse is slowly croaking, or the behavior
  8883. of the tty-driver needs to be improved when there is
  8884. a "receiver framing error on mouse".  I can wedge
  8885. my mouse by rapidly moving it around my screen.
  8886. I get the error message and the mouse freezes.  I then
  8887. disconnect and reconnect my mouse and continue operation.
  8888. Can't we reset the serial line (issue a break or something?)
  8889. in this case?
  8890.     brent
  8891.  
  8892.  
  8893. 617.
  8894. Date: Wed, 25 Oct 89 10:49:28 PDT
  8895. From: Fred Douglis <douglis>
  8896. Subject: prefix mapping bug
  8897.  
  8898. this may be the same as something we discussed before, but I'm not
  8899. sure...
  8900.  
  8901.     % df /c
  8902.     Prefix                  Server       KBytes       Used      Avail    % Used
  8903.     /tmp                    oregano      300696     240823      29803      88%
  8904.  
  8905. wasn't getwd supposed to fix this?  does df do its own equivalent
  8906. operation or something?
  8907.  
  8908.  
  8909.  
  8910.  
  8911. 618.
  8912. Date: Wed, 25 Oct 89 13:38:17 -0700
  8913. From: tve@ernie.Berkeley.EDU (Thorsten Von  Eicken)
  8914. Subject: nfsmounts on oregano very unreliable
  8915.  
  8916. Right now, msgs doesn't work on gluttony and hangs forever (can't even kill).
  8917. /eros/octtools is not available and hangs forever.
  8918. Same yesterday evening.
  8919. df hangs because oreganos nfs stuff is botched.
  8920. I don't know where the problem is, but I get the impression I can't rely at
  8921. all on the nfsmount stuff. Any comment? Shall I just forget about it and
  8922. consider it as a probabilistic service?
  8923.     -Thorsten
  8924. Sorry if I sound harsh, I should have waited to calm down before sending
  8925. this mail... but from home (with a stupid tty) unkillable processes are a
  8926. real pain (can't just delete the tx window).
  8927.  
  8928.  
  8929.  
  8930. 619.
  8931. Date: Wed, 25 Oct 89 16:41:12 PDT
  8932. From: tve (Thorsten von Eicken)
  8933. Subject: why isn't the dbm library installed?
  8934.  
  8935. nor made for the sun4. I need it in X11R3. I'm gonna make the lib for sun3 and
  8936. sun4 in /sprite/src/lib/dbm. Should it be installed?
  8937.  
  8938.  
  8939.  
  8940. 620.
  8941. Date: Wed, 25 Oct 89 16:48:26 PDT
  8942. From: tve (Thorsten von Eicken)
  8943. Subject: wrong error message when installing
  8944.  
  8945. Have a look why this failed:
  8946.  
  8947. [burble dbm] pmake install
  8948. --- /sprite/lib/lint.sun4/llib-ldbm.ln ---
  8949. Installing: /sprite/lib/lint.sun4/llib-ldbm.ln
  8950. Couldn't create "/sprite/lib/lint.sun4/llib-ldbm.ln": file already exists.
  8951. *** Error code 1
  8952. pmake: 1 error
  8953. [burble dbm] l -d /sprite/lib/lint.sun4
  8954.    1 drwxrwxr-x  2 mendel   wheel         512 Oct 21 13:08 /sprite/lib/lint.sun4/
  8955. [burble dbm] l /sprite/lib/lint.sun4
  8956. total 107
  8957.    1 drwxrwxr-x  2 mendel   wheel         512 Oct 21 13:08 ./
  8958.    2 drwxrwxr-x 44 root     sprite       1536 Oct 22 12:17 ../
  8959.   60 -rw-rw-r--  1 rab      wheel       55198 Oct 21 13:07 llib-lc.ln
  8960.    1 -rw-rw-r--  1 mendel   wheel         517 Jul 21 14:31 llib-lcmd.ln
  8961.   10 -rw-rw-r--  1 douglis  wheel        9853 Sep 27 13:50 llib-lcurses.ln
  8962.    1 -rw-rw-r--  1 mendel   wheel         525 Aug 11 15:52 llib-ll.ln
  8963.    4 -rw-rw-r--  1 rab      wheel        3462 Oct  9 12:09 llib-lm.ln
  8964.   17 -rw-rw-r--  1 shirriff wheel       17167 Oct 16 17:35 llib-lmx.ln
  8965.    5 -rw-rw-r--  1 mendel   wheel        4124 Jul 21 14:15 llib-lsx.ln
  8966.    6 -rw-rw-r--  1 ouster   wheel        5731 Oct 17 08:30 llib-ltcl.ln
  8967. [burble dbm] 
  8968.  
  8969. Obviously it couldn't create the file because I have no write access to
  8970. the DIRECTORY. It has nothing to do with the file itself...
  8971. NB: I'll change the dir to be group sprite.
  8972.  
  8973.  
  8974.  
  8975. 621.
  8976. Date: Thu, 26 Oct 89 15:29:33 PDT
  8977. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  8978. Subject: Xmfb.new crash
  8979.  
  8980. My ds3100 window system just died.  Maybe someone with access to the sources
  8981. could make a quick check to see if anything obvious is wrong. It crashed
  8982. while /usr was screwed up so maybe that has something to do with it.
  8983.  
  8984. Segmentation fault [OpenFont:88 +0x8,0x420698]
  8985.          Source not available
  8986. (dbx) where
  8987. >  0 OpenFont(0xffff, 0x0, 0x0, 0x100a7f50, 0x7ddffba4) ["dixfonts.c":88, 0x420698]
  8988.    1 ProcOpenFont(0x7ddffba4, 0x100a7758, 0x419f4c, 0x1, 0x2) ["dispatch.c":1067, 0x412a80]
  8989.    2 dispatch.Dispatch(0x0, 0x0, 0x0, 0x0, 0x10009430) ["dispatch.c":316, 0x410f08]
  8990.    3 main.main(0x0, 0x0, 0x0, 0x0, 0x0) ["main.c":242, 0x402da0]
  8991.  
  8992.  
  8993.  
  8994.  
  8995. 622.
  8996. Date: Fri, 27 Oct 89 13:54:26 PDT
  8997. From: pmchen (Peter M. Chen)
  8998. Subject: wrong server ID's
  8999.  
  9000. Warning: Rpc_Dispatch, wrong server ID 25
  9001.     Client 33 rpc 2 at address: 08:00:20:01:7b:fc
  9002. Warning: Rpc_Dispatch, wrong server ID 9
  9003.     Client 33 rpc 2 at address: 08:00:20:01:7b:fc
  9004.  
  9005. These error messages were received on mustard (a decstation).
  9006.  
  9007.  
  9008.  
  9009. 623.
  9010. Date: Fri, 27 Oct 89 10:35:54 PDT
  9011. From: Fred Douglis <douglis>
  9012. Subject: pmake circular dependency bug
  9013.  
  9014. If pmake is given a makefile where a target depends on itself, rather
  9015. than printing something about a circular dependency, it just says "not
  9016. remade because of errors".
  9017.  
  9018.  
  9019.  
  9020.  
  9021. 624.
  9022. Date: Fri, 27 Oct 89 15:48:43 PDT
  9023. From: mgbaker (Mary Gray Baker)
  9024. Subject: printer bug
  9025.  
  9026. When the laserwriter runs out of paper in the middle of a job, it won't finish
  9027. the job after you refill it.  It prints out a couple more sheets and thinks
  9028. it's done.
  9029.  
  9030.  
  9031.  
  9032. 625.
  9033. Date: Fri, 27 Oct 89 16:12:07 PDT
  9034. From: mgbaker (Mary Gray Baker)
  9035. Subject: another printer problem?
  9036.  
  9037. My job just got printed again, although I didn't request it.  Maybe this
  9038. has something to do with its having run out of paper before?  Maybe it decided
  9039. to print out another 2 pages and then wait for a while and then print the
  9040. whole thing again?
  9041.  
  9042.  
  9043.  
  9044.  
  9045. 626.
  9046. Date: Mon, 30 Oct 89 14:54:18 PST
  9047. From: tve (Thorsten von Eicken)
  9048. Subject: problem with ranlib or ar on sun4
  9049.  
  9050. libarary: /X11R3/src/lib/Xmu
  9051. Let's see, Atom.c declares (globally) a couple of variables and CvtStdSel.c
  9052. uses them (take, for example _XA_HOSTNAME). When I compile and link the
  9053. library on a sun4, programs using this library will not link because of
  9054. symbol undefined errors (the symbols defined in Atoms.c and used in
  9055. CvtStdSel.c). When I link the same libarry on a sun3 for a sun4, everything
  9056. is perfect.
  9057.  
  9058.  
  9059.  
  9060. 627.
  9061. Date: Mon, 30 Oct 89 12:53:28 PST
  9062. From: tve (Thorsten von Eicken)
  9063. Subject: /sprite/lib/man/config
  9064.  
  9065. I have X11R3 man pages in /mic/X11R3/man and I would like to get them when
  9066. I type man. If I use the "-c configFile" switch, I have top make a copy of
  9067. /sprite/lib/man/config and maintain that. Or I would have to edit the config
  9068. file and add /mic/X11R3/man at the bottom (which some people might not like).
  9069. Is there another way? Can one specify more than one config file to man?
  9070.  
  9071.  
  9072.  
  9073. 628.
  9074. Date: Mon, 30 Oct 89 10:40:54 PST
  9075. From: Fred Douglis <douglis>
  9076. Subject: loadavg & recovery
  9077.  
  9078. a lot of hosts are listed as being down since sometime in the middle
  9079. of the night.  i think some sort of reopen must have failed.  however,
  9080. i don't see anything in paprika's syslog, for example, to account for
  9081. the loadavg daemon just going away.  if anyone has anything in their
  9082. syslog pertaining to this (aside from "waiting for recovery" messages)
  9083. please let me know.
  9084.  
  9085.  
  9086.  
  9087. 629.
  9088. Date: Mon, 30 Oct 89 11:15:24 PST
  9089. From: brent (Brent Welch)
  9090. Subject: Fs_PageRead recovery failed <1>
  9091.  
  9092. Ever had programs die after recovery because of:
  9093.  
  9094. 10/30/89 11:41:25 mint (32) Fs_PageRead waiting
  9095. Fs_PageRead recovery failed <1>
  9096. Warning: VmFileServerRead: Error 1 from Fs_Read or Fs_PageRead
  9097. MachTrap: Bus error in user proc c2139, PC = e0075d6, addr = 30400 BR Reg 80
  9098.  
  9099. It can happen if you are running a program that has been
  9100. changed recently by removing the image and copying in a
  9101. new one.  While the server is
  9102. up it doesn't delete the old version of the program
  9103. because it knows it is being executed.  However, after
  9104. a reboot "the right thing" doesn't happen.  Recovery
  9105. seems to go ok, but later on when you fault on the
  9106. code segment you get a paging error and your program
  9107. dies.  It seems like right thing could still happen
  9108. because the old program images end up in lost+found
  9109. (I can see the old version of mx there right now,
  9110. for example, which was the program that died on me.)
  9111.  
  9112.  
  9113.  
  9114. 630.
  9115. Date: Mon, 30 Oct 89 14:00:14 PST
  9116. From: ouster (John Ousterhout)
  9117. Subject: Time change
  9118.  
  9119. Messages in my /dev/syslog are coming out with the wrong hour
  9120. (daylight savings time, still), whereas my xclock is OK and other
  9121. programs seem to be OK.  Is this a bug in the kernel?
  9122.                     -John-
  9123.  
  9124.  
  9125.  
  9126.  
  9127. 630.
  9128. Date: Mon, 30 Oct 89 18:03:53 PST
  9129. From: fubar (Jay Vosburgh)
  9130. Subject: Bug: ls man page
  9131.  
  9132. The file type specifier 'r' (for remote link, or whatever it's
  9133. called) in the output of "ls -l" isn't documented in the man page...]
  9134.  
  9135.  
  9136.  
  9137. 631.
  9138. Date: Tue, 31 Oct 89 10:22:37 PST
  9139. From: rbk (Bob Beck)
  9140. Subject: Need device driver interface document
  9141.  
  9142. For sprite drivers.  This would be a big help in porting Sprite to
  9143. other machines, where drivers exist but have (eg) BSD or SysV kernel
  9144. interfaces.
  9145.  
  9146.  
  9147.  
  9148. 632.
  9149. Date: Tue, 31 Oct 89 10:33:46 PST
  9150. From: rbk (Bob Beck)
  9151. Subject: Need "md" module interface defitions document for Sprite
  9152.  
  9153. This sould help in porting Sprite to new machines, by avoiding ambiguity in
  9154. which procedures there are and what they actually must do.  In the absence of
  9155. such documentation, you have to look at existing modules and determine what
  9156. the true needs are, filtering out machine depenedencies.  On talking with
  9157. John, it would seem a list of relevant procedures and maybe a 1-liner about
  9158. the procedure is sufficient, if the procedure documentation (header)
  9159. specifies the interface well enough.
  9160.  
  9161.  
  9162.  
  9163. 633.
  9164. Date: Tue, 31 Oct 89 11:18:16 PST
  9165. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9166. Subject: user/kernel time wrong
  9167.  
  9168. The user and kernel time statistics on a multiprocessor are wrong.
  9169. The trap handlers have to be changed to mark the current processor
  9170. as being in kernel mode.  Right now this only happens on interrupts, where
  9171. it looks to see what mode it was in before the interrupt. This works
  9172. fine on a uniprocessor but not on a multiprocessor.
  9173.  
  9174.  
  9175.  
  9176. 634.
  9177. Date: Tue, 31 Oct 89 11:48:18 PST
  9178. From: rbk (Bob Beck)
  9179. Subject: MASTER_UNLOCK doesn't do test-and-set
  9180.  
  9181. This can be a problem if the cache architecture of the machine
  9182. doesn't support an "ownership" protocol -- eg, on Sequent Symmetry,
  9183. if the cache is runing "write-thru", both the "acquire lock" and
  9184. "release lock" must do test-and-set (just doing a write on the
  9185. mutex variable can race with an attempt to acquire the lock).
  9186. However, the current code "(semaphore)->value = 0;" does work on
  9187. Symmetry running copy-back cache mode.
  9188.  
  9189. Just thought you would be interested -- the MASTER_UNLOCK()
  9190. implementation isn't truly machine independent, although it's defined
  9191. in /sprite/src/kernel/sync/sync.h
  9192.  
  9193.  
  9194.  
  9195. 635.
  9196. Date: Tue, 31 Oct 89 14:48:53 PST
  9197. From: brent (Brent Welch)
  9198. Subject: RPC binding hosed
  9199.  
  9200. Assault went into the same state that Mint and Allspice
  9201. got into Monday morning.  You could talk with Assault
  9202. from some machines, but not others.  I poked around and noticed
  9203. (via rpcstat -sinfo) that many RPC requests were being
  9204. dropped on the floor (the "noalloc" field).  I didn't drop Assault into the
  9205. debugger (kdbx fear), but when I rebooted it there was
  9206. one hung kernel process, Rpc_Daemon.  This is the guy
  9207. that's in charge of creating new server processes and for
  9208. closing up connections on idle channels.  With this process
  9209. hung only requests over currently existing channels were
  9210. accepted, and no dynamic re-binding of server processes happens.
  9211. I'll go look at the code and see if I can figure out why
  9212. Rpc_Daemon hung itself.
  9213.  
  9214.  
  9215.  
  9216. 636.
  9217. Date: Tue, 31 Oct 89 14:50:09 PST
  9218. From: rbk (Bob Beck)
  9219. Subject: sync/syncLock.c has assumptions about memory system ordering of reads and writes
  9220.  
  9221. Sync_SlowLock() (and others, I suspect) seem to rely on the memory
  9222. system doing things in "right" order -- ie, Sync_GetLock() may call
  9223. Sync_SlowLock() which will try to T&S the inUse variable, then set
  9224. waiting=TRUE, then try the T&S again...  However, Sync_Unlock()
  9225. just writes inUse=0 *then* tests waiting...  Although I think this
  9226. works on Symmetry, it's not clean and relies on strict order of
  9227. reads and writes to processor cache; ie, if Sync_Unlock()'s read
  9228. of waiting passed its write of inUse, this code would race and
  9229. fail.  I would prefer to see this with explicit locking of the
  9230. "Lock" variable that avoids these problems -- ie, state manipulation
  9231. of the Lock variable while holding a mutex inside the variable
  9232. (Sequents kernel mutex abstractions all behave this way).  This (I
  9233. think) is much more clear, and most/all MP systems will provide
  9234. guarantees on cache/memory writes being done when a T&S completes
  9235. (eg, to unlock the data-structure).  I think some of the higher
  9236. performing RISC parts due out in a year or so may violate the
  9237. assumptions you're making here.
  9238.  
  9239. On a further note, sufficiently highly optimizing compilers might
  9240. take it upon themselves to re-order some of these statements.
  9241. Volatile declarations may help, but may be too strong.  Some people
  9242. (eg, Sequent) are making the compilers sensitive to various procedures
  9243. (eg, v_lock()) to know this is a mutual exclusion point, code cannot
  9244. be moved across this boundary, and the HW insures previous writes
  9245. are flushed when a T&S write completes.
  9246.  
  9247. This dependency should be documented, if not resolved otherwise.
  9248.  
  9249.  
  9250.  
  9251. 637.
  9252. Date: Wed, 01 Nov 89 00:57:21 PST
  9253. From: Fred Douglis <douglis>
  9254. Subject: prefix bugs
  9255.  
  9256. i wanted to make a simple change: make a ds3100 export /tmp.  when i
  9257. deleted /tmp from oregano's prefix table, though, it stopped dealing
  9258. with other prefixes (i'd get "/c unreadable" even if i deleted it
  9259. and rebroadcasted).  i had to remove /tmp from /t1/hosts/oregano/mount
  9260. and reboot oregano.  then everything was okay, except that hosts
  9261. with entries for /tmp were able to keep accessing /c/tmp even
  9262. though oregano wasn't exporting.  i could then explicitly delete
  9263. /tmp and force a rebroadcast and that worked.
  9264.  
  9265.  
  9266.  
  9267. 638.
  9268. Date: Tue, 31 Oct 89 18:02:07 PST
  9269. From: Fred Douglis <douglis>
  9270. Subject: emacs & ipServer on ds3100
  9271.  
  9272. seems to be a ds3100 bug where killing the X server without killing an
  9273. emacs client will leave the ipServer in an infinite loop.  be advised
  9274. in the meantime that exiting emacs explicitly is probably a Good
  9275. Thing. 
  9276.  
  9277.  
  9278.  
  9279. 639.
  9280. Date: Wed, 1 Nov 89 01:15:48 PST
  9281. From: douglis (Fred Douglis)
  9282. Subject: bug with permissions caching
  9283.  
  9284. I am using /dist/dist/sprite/cmds.ds3100 as /sprite/cmds.ds3100 for my
  9285. benchmarking.  it contained no setuid files, so I found all the setuid
  9286. files in the old cmds.ds3100 and made the new ones setuid.  nevertheless,
  9287. i couldn't run rlogin, even when i confirmed it was setuid root.  
  9288. however, copying the same file using update -O produced a file i could
  9289. execute okay.  looks like maybe sprite remembers the protection somehow??
  9290.  
  9291.  
  9292. 640.
  9293. Date: Wed, 1 Nov 89 08:30:54 PST
  9294. From: brent (Brent Welch)
  9295. Subject: decstation fonts
  9296.  
  9297. Once again my spritemon is messed up because of some quirk
  9298. in the decstation fonts.  I switched over to Xmfb.new so
  9299. I know that caused it.  However, I'm frustrated because
  9300. the font stuff is black magic, and I hate that.  I'd really
  9301. like a 'fonts' man page so I can figure things out myself
  9302. instead of having to whine to the bugs mailing list.  Can
  9303. someone start a font man page?
  9304.     brent
  9305. p.s. I know I've complained about this before, and I've probably
  9306. gotten a good answer.  However, this breaks at such long intervals
  9307. that I've forgotten the magic incantation.  We need a man page.
  9308.  
  9309.  
  9310.  
  9311. 641.
  9312. Date: Wed, 1 Nov 89 15:19:16 PST
  9313. From: brent (Brent Welch)
  9314. Subject: Mint is ailing
  9315.  
  9316. Well, we've been having some troubles with Mint, haven't we?
  9317. I seems to get into states of overload and begins to misbehave.
  9318. I want to fully understand things before I go hacking away,
  9319. however.  First, as a user, don't hesitate to send me mail
  9320. if the system craps out on you and you resort to rebooting
  9321. your client.  Ideally you shouldn't have to do that, and
  9322. I'd like to know about it if it happens.  In the meantime
  9323. I'm going to augment Mint's kernel with some hooks so I
  9324. can get at its recovery-related state.  It seems to get
  9325. into modes where it thinks all the clients have rebooted,
  9326. so it yanks the rug out from under them.  This triggers
  9327. recovery actions by clients, which then overloads mint.
  9328. I know how to tune the client side so that recovery loads
  9329. mint less, but first I want to understand why mint freaks
  9330. out in the first place.
  9331.  
  9332.  
  9333.  
  9334. 642.
  9335. Date: Wed, 1 Nov 89 18:13:01 PST
  9336. From: brent (Brent Welch)
  9337. Subject: Re: Something bad about caching?
  9338.  
  9339. Fenugreek is importing /sprite/lib/ from assault.  I ran 'stat' on
  9340. the files because I suspected something like this:
  9341.  
  9342. <sage 892> stat /sprite/lib/include/sysStats.h
  9343. --rw-r--r-- 1  ID=(1471,155)    8310 bytes  /sprite/lib/include/sysStats.h
  9344.  Server  Domain     File #
  9345.      32       1      90339
  9346. Version 62    UserType 0x0
  9347. Created:         Nov  1 15:54:20 1989
  9348. Data modified:   Nov  1 16:55:31 1989
  9349. Descr. modified: Nov  1 16:55:31 1989
  9350. Last accessed:   Nov  1 17:06:44 1989
  9351.  
  9352. <fenugreek 2> stat /sprite/lib/include/sysStats.h
  9353. --r--r--r-- 1  ID=(0,0)    8172 bytes  /sprite/lib/include/sysStats.h
  9354.  Server  Domain     File #
  9355.      25       2       5612
  9356. Version 3    UserType 0x0
  9357. Created:         Oct 26 20:51:26 1989
  9358. Data modified:   Oct 10 16:27:30 1989
  9359. Descr. modified: Oct 26 20:51:26 1989
  9360. Last accessed:   Nov  1 17:00:40 1989
  9361.  
  9362. So this is a prefix bug, not a caching bug.  It seem straight-forward
  9363. to fix the prefix bug.  I can mark exported prefix handles
  9364. specially on the server, and verify this on naming operations.
  9365. This would ensure than naming operations are denied when
  9366. the server stops exporting a prefix.
  9367.  
  9368.  
  9369.  
  9370. 643.
  9371. Date: Thu, 2 Nov 89 13:05:31 PST
  9372. From: brent (Brent Welch)
  9373. Subject: Re: bad decStation kernel
  9374.  
  9375. >From what I saw last night, the new ds3100 kernel was
  9376. dying in Mach_TestAndSet with a "bad address on load".
  9377. Any recent changes to the mach module?
  9378.  
  9379.  
  9380.  
  9381. 644.
  9382. Date: Thu, 2 Nov 89 13:29:03 PST
  9383. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9384. Subject: watchdog reset
  9385.  
  9386. Thyme just suffered a watchdog reset running kernel SPRITE VERSION BW.183.
  9387. According to Brent this is very similar to the installed kernel.
  9388. I wasn't able to get anything from the prom -- it looked like the pc and
  9389. sp had been reset.
  9390.  
  9391.  
  9392.  
  9393. 645.
  9394. Date: Thu, 2 Nov 89 13:56:13 PST
  9395. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9396. Subject: loadavg wrong for MP
  9397.  
  9398. Loadavg doesn't deal with more than one processor and will compute cpu
  9399. utilization wrong on a multi-processor.  I don't have time to fix it
  9400. right now so this message serves as a reminder to do it later.
  9401.  
  9402.  
  9403.  
  9404. 646.
  9405. Date: Fri, 3 Nov 89 08:21:05 PST
  9406. From: rbk (Bob Beck)
  9407. Subject: Misc header file glitches
  9408.  
  9409. John had asked me to notice procedure headers that seem "weak" or
  9410. otherwise questionable -- ie, not sufficient specification of the
  9411. procedure...  I didn't find many (yet ;-), but thought I'd pass
  9412. these along...
  9413.  
  9414. /sprite/src/kernel/vm/spur.md/vmSpur.c  VmMach_BootInit()
  9415.  
  9416.     Semantics and interface not well specified
  9417.  
  9418. /sprite/src/kernel/sync/syncLock.c      Sync_GetLock()
  9419.  
  9420.     Semantics not specified other than "this is kernel version".
  9421.  
  9422. /sprite/src/kernel/rpc/rpcCall.c
  9423.  
  9424.     comment at top talks about lust:~brent/src/sun/sys/h/rfs.h
  9425.     -- is this still valid?  ~brent/src/sun/sys/h/rfs.h doesn't
  9426.     exist on the Sprite network.
  9427.  
  9428. Sig_Send() has a comment: "When we go to a multi-processor this
  9429. routine must be rewritten to possibly interrupt a running process".
  9430. Is this comment still valid?  It looks like Sync_WakeWaitingProcess()
  9431. handles waking the other processor...
  9432.  
  9433.  
  9434.  
  9435. 647.
  9436. Date: Fri, 3 Nov 89 11:28:09 PST
  9437. From: shirriff (Ken Shirriff)
  9438. Subject: sed bug
  9439.  
  9440. ls | sed -e "/e/x\
  9441. /e/p"
  9442. causes a segmentation violation in sed.
  9443.  
  9444.  
  9445.  
  9446. 648.
  9447. Date: Fri, 03 Nov 89 15:40:56 PST
  9448. From: Fred Douglis <douglis>
  9449. Subject: tftpd dregs
  9450.  
  9451. mint has about a half-dozen tftpd processes lying around.  I don't
  9452. know which ones to kill, or why they're not dying.  I thought this bug
  9453. had been fixed a while ago.
  9454.  
  9455.  
  9456.  
  9457. 649.
  9458. Date: Fri, 03 Nov 89 15:55:05 PST
  9459. From: Fred Douglis <douglis>
  9460. Subject: eviction/loadavg bug
  9461.  
  9462. i noticed that sage was listed as being down; debugging it showed it
  9463. was in the middle of an eviction request.  looks like it's possible
  9464. for an eviction to get lost, or in any case there may be some race
  9465. condition.  next time someone notices loadavg getting wedged, please
  9466. let me know so i can debug the kernel to see where the process is and
  9467. the internal kernel state relating to eviction.
  9468.  
  9469.  
  9470.  
  9471. 650.
  9472. Date: Fri, 3 Nov 89 16:25:45 PST
  9473. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9474. Subject: gethostent
  9475.  
  9476. The routine gethostent() appears in the gethostbyname man page, but
  9477. does not exist in the C library.
  9478.  
  9479.  
  9480.  
  9481. 651.
  9482. Date: Fri, 03 Nov 89 17:47:05 PST
  9483. From: Fred Douglis <douglis>
  9484. Subject: ds3100 ar/ranlib status?
  9485.  
  9486. i'm really getting fed up with ar appending new copies into libraries
  9487. instead of replacing the old ones.  I was fed up enough to try to
  9488. build a new ar and fix the problem.  The catch is, it was just
  9489. recently recompiled, and the new one worked fine when given the same
  9490. command (ar r ....).  I looked in the sprite log and it seems the
  9491. problem is really with ranlib: the sprite ranlib wouldn't compile (and
  9492. still won't), and the ultrix ranlib wouldn't work with our ar.
  9493.  
  9494. as a temporary fix, i am going to install sprite's ar as ar.sprite,
  9495. and change biglib.mk to invoke ar.sprite instead of ar for
  9496. decstations.  as a more permanent fix, we need to fix ranlib.  I took
  9497. a look at it and don't think it looks good -- the a.out hdr formats
  9498. and constants and macros are all too different.  I started trying to
  9499. convert it but found that I'm missing the "symbol table offset" that's
  9500. there for the suns.  maybe bob knows more about this stuff and can
  9501. take a look sometime?  
  9502.  
  9503.  
  9504.  
  9505. 652.
  9506. Date: Sat, 4 Nov 89 16:02:20 PST
  9507. From: tve (Thorsten von Eicken)
  9508. Subject: ranlib on sun4 very flaky
  9509.  
  9510. I mentioned this before... try:
  9511. cd /sprite/src/lib/dbm; pmake clean; pmake  # I did "pmake installdebug" but
  9512.                         # I suppose  "pmake" will do it too.
  9513. ... and watch the ranlib go into debug state...
  9514.  
  9515.  
  9516.  
  9517. 653.
  9518. Date: Sat, 4 Nov 89 16:44:35 PST
  9519. From: tve (Thorsten von Eicken)
  9520. Subject: sed problem on sun4s
  9521.  
  9522. The following, found in /sprite/lib/mkmf/mkmf.top, doesn't work on sun4's
  9523. because sed doesn't output the last line of input if it isn't terminated
  9524. by a newline. I.e. after the "tr" command above, the input to sed is a single
  9525. line without terminating newline. Sed on the sun4 will not output anything
  9526. at all.
  9527.  
  9528.  
  9529.  
  9530. 654.
  9531. Date: Sat, 4 Nov 89 16:59:36 PST
  9532. From: tve (Thorsten von Eicken)
  9533. Subject: are process ids guaranteed to be unique in the network?
  9534.  
  9535. Or is there just a "high probability" that they are unique?
  9536. Doing pmakes on sun3's I often get (compiling for sun4):
  9537. --- sun4.md/XCopyArea.o ---
  9538. rm -f sun4.md/XCopyArea.o
  9539. cc  -DERRORDB=\"/X11R3/src/lib/X11/XErrorDB\" -DTCPCONN -DFONT_SNF -DFONT_BDF -DCOMPRESSED_FONTS -DSPRITE -Usprite -Uunix -Uultrix -DINCLUDE_ALLOCA_H -I/X11R3/lib/include -O -msun4 -Dsprite -Dsun4  -I. -Isun4.md -I/X11R3/lib/include -I/X11R3/lib/include/X11 -traditional -fwritable-strings -finline-functions -fstrength-reduce -c XCopyArea.c -o sun4.md/XCopyArea.o
  9540. /sprite/cmds.sun3/cpp: /tmp/cc727631.cpp: invalid argument
  9541. *** Error code 1
  9542. pmake: 1 error
  9543. *** Error code 1
  9544. pmake: 1 error
  9545.  
  9546. and when I restart pmake everything is fine. Dunno whaats going on!
  9547.  
  9548.  
  9549.  
  9550. 655.
  9551. Date: Sat, 04 Nov 89 20:44:56 PST
  9552. From: Fred Douglis <douglis>
  9553. Subject: dumps didn't complete
  9554.  
  9555. I saw that the dumps hadn't run last night, and that Bob apparently
  9556. wasn't around, so I tried running them.  I ran "dailydump" on murder,
  9557. and it seemed to do /user1 and /user2 just fine but then died on
  9558. /sprite with
  9559.  
  9560.     -: I/O error
  9561.  
  9562.  
  9563.  
  9564. 656.
  9565. Date: Sun, 5 Nov 89 00:28:04 PST
  9566. From: tve (Thorsten von Eicken)
  9567. Subject: /sprite/lib/sun4.md/libc.a:socket.o:_Stat_PrintMsg
  9568.  
  9569. This symbol is undefined. I cant'a link any of my X stuff!! please fix quick!
  9570. To test:
  9571.     cd /X11R3/src/cmds/Xsp; pmake TM=sun4
  9572. Sample:
  9573. --- sun4.md/Xcfb ---
  9574. rm -f sun4.md/Xcfb
  9575. cc  -g -O -msun4 -Dsprite -Dsun4  -o sun4.md/Xcfb ddx/snf/sun4.md/linked.o ddx/mi/sun4.md/linked.o ddx/mfb/sun4.md/linked.o ddx/cfb/sun4.md/linked.o ddx/sprite/sun4.md/linked.o dix/sun4.md/linked.o os/sprite/sun4.md/linked.o -ldbm -lm
  9576. socket.o: Undefined symbol _Stat_PrintMsg referenced from text segment
  9577.  
  9578.  
  9579.  
  9580. 657.
  9581. Date: Sun, 5 Nov 89 01:08:45 PST
  9582. From: tve (Thorsten von Eicken)
  9583. Subject: no gcore for sun4's
  9584.  
  9585. Could someone please compile/make one?
  9586.  
  9587.  
  9588.  
  9589. 658.
  9590. Date: Sun, 5 Nov 89 01:08:19 PST
  9591. From: tve (Thorsten von Eicken)
  9592. Subject: ipServer on crackle (sun4) in debug state
  9593.  
  9594. Sorry, no core dump -> gcore doesn't exist
  9595. Sorry, no backtrace -> /sprite/src/daemons/ipServer/sun4.md is empty
  9596. Sorry, no backtrace -> /sprite/daemons.sun4/ipServer has no symbol table
  9597. ... good job!
  9598.  
  9599.  
  9600.  
  9601. 659.
  9602. Date: Mon, 06 Nov 89 11:26:58 PST
  9603. From: Fred Douglis <douglis>
  9604. Subject: sun4/sun4c (emacs) incompatibility
  9605.  
  9606. it seems that the same dumped version of emacs can't run on both
  9607. vanilla sun4s and sun4c's.  Since the predominant type of sun4s is, or
  9608. will be, sun4c, I'm going to make the default version of emacs be the
  9609. sun4c flavor.  I'll move the other one to /emacs/cmds.sun4/emacs.sun4
  9610. (emacs.sun4c and emacs will be the same).
  9611.  
  9612. As an alternative, I could remake emacs for the sun4 with CANNOT_DUMP
  9613. defined, so it might start up okay on both types but would take
  9614. "forever" to get going.  Let me know if you have a strong preference.
  9615.  
  9616. I am cc'ing bugs on this because it suggests we may have to consider
  9617. methods for distinguishing between sun4s and sun4c's at user level (in
  9618. %MACHINE).  
  9619.  
  9620.  
  9621.  
  9622. 660.
  9623. Date: Mon, 6 Nov 89 12:32:23 PST
  9624. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9625. Subject: mx bug/feature
  9626.  
  9627. If I run mx on multiple file (mx *.c) the first time I use the "next"
  9628. command to get to the next file it is a no-op.  The second usage gets
  9629. me to the second file, after which all uses work properly.
  9630.  
  9631. 661.
  9632. Date: Mon, 13 Nov 89 10:03:32 PST
  9633. From: Fred Douglis <douglis>
  9634. Subject: setjmp
  9635.  
  9636. I checked, and the ds3100 is the only one that doesn't have _setjmp.o.
  9637. It has setjmp.o.  The ultrix libc.a has both.  Any idea whether we
  9638. used to have _setjmp.o?  The real question is, can we restore it from
  9639. tape, or do we grab the ultrix .o file, or what?
  9640.  
  9641.  
  9642.  
  9643. 662.
  9644. Date: Mon, 6 Nov 89 14:27:02 PST
  9645. From: tve (Thorsten von Eicken)
  9646. Subject: lps40 access for new machines
  9647.  
  9648. crackle has no acces to the lps40. I guess there is the same problem with
  9649. burble, buzz, treason
  9650.  
  9651.  
  9652.  
  9653. 663.
  9654. Date: Mon, 6 Nov 89 22:16:52 PST
  9655. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9656. Subject: Rpc_ChanFree: freeing free channel
  9657.  
  9658. Lust just crashed trying to free an already free channel.  The structure
  9659. looks ok to me, but the state is 0.  I don't see any way in which this
  9660. could have happened, but it did.  Has anyone changed anything in the
  9661. rpc module that could have caused this?  I have a copy of the stack
  9662. backtrace if it is helpful.
  9663.  
  9664.  
  9665.  
  9666. 664.
  9667. Date: Mon, 6 Nov 89 23:41:51 PST
  9668. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9669. Subject: oregano crash
  9670.  
  9671. I tried to use the IOC_SCSI_COMMAND ioctl to get the size of a disk
  9672. attached to oregano and oregano died.  When the scsi command completed
  9673. RequestDone in sun3.md/devSCSI3.c called scsiDoneProc and passed it
  9674. a senseDataPtr of 0.  scsiDoneProc then died with a bus error.
  9675. I know this ioctl works on a sun4 using a Jaguar, but the code doesn't
  9676. look too different so I can't figure it out. All of the data structures
  9677. looked ok, so I think there is just a goof in the flow of control
  9678. when using this ioctl.
  9679.  
  9680.  
  9681.  
  9682. 665.
  9683. Date: Tue, 7 Nov 89 09:01:35 PST
  9684. From: mendel (Mendel Rosenblum)
  9685. Subject: Re: ranlib on sun4 very flaky
  9686.  
  9687. > I mentioned this before... try:
  9688. > cd /sprite/src/lib/dbm; pmake clean; pmake  # I did "pmake installdebug" but
  9689. >                        # I suppose  "pmake" will do it too.
  9690. > ... and watch the ranlib go into debug state...
  9691. >    Thorsten
  9692.  
  9693. Actually, "pmake" works.  "pmake installdebug" didn't until I reinstalled 
  9694. ranlib.  There have been many cases of stale object files in /sprite/cmds.sun4.
  9695. I think we should reinstall all the sun4 commands.
  9696.  
  9697.  
  9698.  
  9699. 666.
  9700. Date: Tue, 7 Nov 89 09:42:05 PST
  9701. From: tve (Thorsten von Eicken)
  9702. Subject: tftpd on crackle ?!
  9703.  
  9704. I just rebooted, and am getting "inetd[...]: /sprite/daemons/tftpd: exit status 0x100"
  9705. messages every minute or so (on the console).
  9706.  
  9707.  
  9708.  
  9709. 667.
  9710. Date: Tue, 7 Nov 89 09:48:41 PST
  9711. From: mendel (Mendel Rosenblum)
  9712. Subject: Re: tftpd on crackle ?!
  9713.  
  9714. Some host on the net send tftp request to the broadcast address when trying
  9715. to boot. Since the tftpd daemon was never installed on the sun4s but was
  9716. listed in the inet.conf file, inetd would try to exec /sprite/daemons/tftpd
  9717. when each request came in.  I've installed tftpd for the sun4 so you should
  9718. not see the message anymore.
  9719.  
  9720.  
  9721.  
  9722. 668.
  9723. Date: Tue, 07 Nov 89 13:55:45 PST
  9724. From: Fred Douglis <douglis>
  9725. Subject: Re: Down machines 
  9726.  
  9727. I noticed that.  looks like some sort of migration bug, in that the
  9728. "eviction request" may not have returned properly.  why either host
  9729. thought it had a foreign process is beyond me.  however, loadavg.new
  9730. lists mint as up, and that has the timeout i mentioned in the meeting,
  9731. so i'm pretty sure that's the case.  (i also noticed mint listed as
  9732. "hasmig" shortly after it rebooted, and was planning to look into that
  9733. at some point.  difficult, though, when it's the file server.)
  9734.  
  9735.  
  9736.  
  9737. 669.
  9738. Date: Tue, 7 Nov 89 14:17:13 PST
  9739. From: tve (Thorsten von Eicken)
  9740. Subject: what version of gcc on sun4's???
  9741.  
  9742. I thought we had moved to gcc 1.36 a while ago? But look:
  9743. cc -v -S goo.c
  9744. gcc version 1.36
  9745. target machine is sun4
  9746.  /sprite/cmds.sun4/cpp -v -msun4 -undef -D__GNUC__ -Dsparc -Dsun4 -Dunix -Dsprite -D__SOFT_FLOAT__ goo.c /tmp/cc669451.cpp
  9747. GNU CPP version 1.34
  9748.  /sprite/cmds.sun4/cc1.sparc /tmp/cc669451.cpp -quiet -dumpbase goo.c -version -o goo.s
  9749. GNU C version 1.34 (sparc) compiled by GNU C version 1.34.
  9750.  
  9751.  
  9752. 670.
  9753. Date: Tue, 7 Nov 89 14:31:20 PST
  9754. From: tve (Thorsten von Eicken)
  9755. Subject: gcc floating point confusion on sun3's
  9756.  
  9757. What is going on? When is the 68881 used and when not? When is __SOFT_FLOAT__
  9758. defined and when not? When do cpp, cc1 and as agree?
  9759.  
  9760. [sassafras foo] cc -O -o goo68 goo.c -v -m68881
  9761. gcc version 1.36
  9762. target machine is sun3
  9763.  /sprite/cmds.sun3/cpp -v -msun3 -undef -D__GNUC__ -Dmc68000 -Dsun3 -Dunix -Dsprite -D__OPTIMIZE__ goo.c /tmp/cc728371.cpp
  9764. GNU CPP version 1.36
  9765.  /sprite/cmds.sun3/cc1.68k -msoft-float -m68020 /tmp/cc728371.cpp -quiet -dumpbase goo.c -m68881 -O -version -o /tmp/cc728371.s
  9766. GNU C version 1.36 (68k, MIT syntax) compiled by GNU C version 1.36.
  9767. default target switches: -m68020 -mc68020 -m68881 -mbitfield -msun3
  9768.  /sprite/cmds.sun3/as -m68020 /tmp/cc728371.s -o goo.o
  9769.  /sprite/cmds.sun3/ld -X -e start -o goo68 -L/sprite/lib/sun3.md goo.o -lc
  9770.  
  9771.  
  9772. [sassafras foo] cc -O -o goo68 goo.c -v -msoft-float
  9773. gcc version 1.36
  9774. target machine is sun3
  9775.  /sprite/cmds.sun3/cpp -v -msun3 -undef -D__GNUC__ -Dmc68000 -Dsun3 -Dunix -Dsprite -D__SOFT_FLOAT__ -D__OPTIMIZE__ goo.c /tmp/cc531771.cpp
  9776. GNU CPP version 1.36
  9777.  /sprite/cmds.sun3/cc1.68k -msoft-float -m68020 /tmp/cc531771.cpp -quiet -dumpbase goo.c -msoft-float -O -version -o /tmp/cc531771.s
  9778. GNU C version 1.36 (68k, MIT syntax) compiled by GNU C version 1.36.
  9779. default target switches: -m68020 -mc68020 -m68881 -mbitfield -msun3
  9780.  /sprite/cmds.sun3/as -m68020 /tmp/cc531771.s -o goo.o
  9781.  /sprite/cmds.sun3/ld -X -e start -o goo68 -L/sprite/lib/sun3.md goo.o -lc
  9782.  
  9783. -------
  9784. I.e: it seems __SOFT-FLOAT__ is always defined, -msoft-float is default (yuck!)
  9785.  
  9786. Thorsten (and Andreas who pointed me at this)
  9787.  
  9788.  
  9789. 671.
  9790. Date: Tue, 7 Nov 89 14:32:50 PST
  9791. From: tve (Thorsten von Eicken)
  9792. Subject: the csh notion of process time on the sun4 is broken.
  9793.  
  9794. I guess it just need to be recompiled? Witness:
  9795. [crackle foo] time ./goo
  9796. i=100000 b=(INFINITY)
  9797. 0.0u 0.0s 0:43 0% 0+0io 0pf+0sw 0k
  9798. [lots of zeros here!]
  9799.  
  9800.  
  9801.  
  9802. 672.
  9803. Date: Tue, 7 Nov 89 16:50:12 PST
  9804. From: shirriff (Ken Shirriff)
  9805. Subject: Transient cc bug.
  9806.  
  9807. While compiling fsCacheConsist.c for the ds3100, I got:
  9808. ugen: internal  L line 767 : build.p, line 1743
  9809.                unexpected u-code.
  9810. I tried it again and I didn't get this.
  9811.  
  9812.  
  9813.  
  9814. 673.
  9815. Date: Tue, 7 Nov 89 17:46:34 PST
  9816. From: eklee (Edward K. Lee)
  9817. Subject: pmake profile does not work for libraries
  9818.  
  9819.  
  9820.  
  9821. 674.
  9822. Date: Tue, 7 Nov 89 17:56:32 PST
  9823. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9824. Subject: thyme crash, CallFunc: Process queue full
  9825.  
  9826. Thyme crashed when the Proc_ServerProc queue filled up. All of the server
  9827. procs were ready, and one was running. The queue was full of calls to 
  9828. TransferInProc.  It looks like something (interrupt handler?) was stuffing
  9829. calls to this procedure into the queue faster than the server procs
  9830. could handle them.  Here is the backtrace of the procedure that
  9831. discovered the full queue:
  9832.  
  9833. #0  panic (_va_args=235192782) (sysPrintf.c line 209)
  9834. #1  0xe04c324 in CallFunc (funcInfoPtr=(FuncInfo *) 0xe80ff38) (procServer.c line 544)
  9835. #2  0xe04bc70 in Proc_CallFunc (func=(void (*)()) 0xe014044, clientData=(ClientData) 0xe07e5c4, interval=0) (procServer.c line 174)
  9836. #3  0xe01403a in DevTtyInputChar (ttyPtr=(struct DevTty *) 0xe07e5c4, value=56) (devTty.c line 536)
  9837. #4  0xe00995a in DevConsoleInputProc (ttyPtr=(struct DevTty *) 0xe07e5c4, value=56) (sun3.md/devConsole.c line 328)
  9838. #5  0xe014090 in TransferInProc (ttyPtr=(struct DevTty *) 0xe07e5c4, callInfoPtr=(Proc_CallInfo *) 0xe80ffd8) (devTty.c line 577)
  9839. #6  0xe04c04c in Proc_ServerProc () (procServer.c line 376)
  9840. #7  0xe056048 in Sched_StartKernProc (func=(void (*)()) 0xe04be58) (schedule.c line 944)
  9841. (gdb) 
  9842.  
  9843. Thyme aborted out of the debugger, ignored the watchdog reset button,
  9844. and suffered watchdog resets in the prom, so perhaps this is a hardware
  9845. problem.
  9846.  
  9847.  
  9848.  
  9849. 675.
  9850. Date: Tue, 7 Nov 89 18:08:12 PST
  9851. From: brent (Brent Welch)
  9852. Subject: Blocking Fs_PageRead clogs the system
  9853.  
  9854. The VM systems uses the Proc_ServerProcs to fill pages
  9855. during a page fault.  The problem is that Fs_PageRead
  9856. blocks during recovery, and this can use up all the
  9857. Proc_ServerProcs.  Both sloth and thyme died because
  9858. the Proc_CallFunc queue filled up.  It couldn't be
  9859. serviced because all the Proc_ServerProcs were blocked
  9860. on recovery inside Fs_PageRead.  This fix has to be
  9861. inside the VM system.  It has to figure out what to
  9862. do if Fs_PageRead returns EWOULDBLOCK (or something)
  9863. so that Fs_PageRead doesn't block.  I know the VM system
  9864. already does some recovery waits because it uses the
  9865. handle of the swap directory for this.
  9866.  
  9867.  
  9868.  
  9869. 676.
  9870. Date: Tue, 7 Nov 89 18:30:00 PST
  9871. From: mgbaker (Mary Gray Baker)
  9872. Subject: sun4 debug crash
  9873.  
  9874. There's a bug in the sun4's that causes a cache write-back error when you
  9875. try to debug a user process.  This is new and very bad.  I'm investigating
  9876. now.
  9877.  
  9878.  
  9879.  
  9880. 677.
  9881. Date: Tue, 7 Nov 89 18:55:53 PST
  9882. From: brent (Brent Welch)
  9883. Subject: pmake installhdrs in mach
  9884.  
  9885. When I do pmake installhdrs in the mach module
  9886. it claims there are no sources.  It doesn't
  9887. attempt to go into the .md directories.
  9888.  
  9889.  
  9890.  
  9891. 678.
  9892. Date: Tue, 07 Nov 89 22:18:27 PST
  9893. From: Fred Douglis <douglis>
  9894. Subject: sun4 library
  9895.  
  9896. i saw that the new finger (with the new loadavg database file) was
  9897. successfully installed the other day for all types but sun4, so I
  9898. tried to compile it again. It wouldn't link because the installed sun4
  9899. libc.a was incomplete.  When I tried to recompile, I had to rerun mkmf
  9900. because lib/c/Makefile was set up only for "sun3" even though it
  9901. looked like it hadn't been regenerated since last month sometime.  Did
  9902. someone edit it by hand?
  9903.  
  9904.  
  9905.  
  9906. 679.
  9907. Date: Wed, 8 Nov 89 23:43:12 PST
  9908. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9909. Subject: more on process queue bug
  9910.  
  9911. It seems fairly repeatable if you exit the console window on a sun3 such
  9912. that your X window system gets torn down.  You'll get a prompt back in
  9913. the console window, but the first time you press a key the process
  9914. queue overflows with calls to TransferInProc.
  9915.  
  9916. I tried this twice on thyme running version 1.038.  I looked at the
  9917. stack but can't figure out whose putting all the calls in the queue.
  9918. TransferInProc looks like it puts itself on the queue, but that shouldn't
  9919. cause it to overflow.
  9920.  
  9921.  
  9922.  
  9923.  
  9924. 680.
  9925. Date: Thu, 9 Nov 89 12:08:44 PST
  9926. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9927. Subject: 1.039 flakey
  9928.  
  9929. There is an unknown bug in 1.039 that trashes your stack.  Hijack
  9930. died twice with a messed up stack. All I was doing at the time was
  9931. editing files. Thyme suffered a watchdog reset when I started a
  9932. pmake.  Mint recovered for some unknown reason, and instantaneously
  9933. thyme reset.
  9934.  
  9935. The only stable machine this morning has been the spur, but I can't
  9936. get to it because my other workstations insist on dying.
  9937.  
  9938.  
  9939.  
  9940. 681.
  9941. Date: Thu, 9 Nov 89 11:58:58 PST
  9942. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  9943. Subject: spritemon
  9944.  
  9945. When I try to use spritemon to display the cpu utilization of 5
  9946. processors it screws up and only does 4, the fifth "pane" always
  9947. being blank.  Right now all 5 processors are pegged, but spritemon
  9948. shows the 5th as having 0 utilization.
  9949.  
  9950.  
  9951.  
  9952. 682.
  9953. Date: Thu, 9 Nov 89 12:31:07 PST
  9954. From: tve (Thorsten von Eicken)
  9955. Subject: tftp/udp server failing (looping) on crackle (sun4)
  9956.  
  9957. My syslog just showed the folowing. Is it relevant?
  9958. <27>Nov  9 12:29:59 inetd[6370c]: tftp/udp server failing (looping), service terminated
  9959.  
  9960.  
  9961.  
  9962. 683.
  9963. Date: Thu, 9 Nov 89 14:27:40 PST
  9964. From: mgbaker (Mary Gray Baker)
  9965. Subject: Something funny with recovery?
  9966.  
  9967. An ls to allspice hung on me.  I wasn't getting reccovery even quite a while
  9968. after murder did, so I killed the ls and re-executed it.  Then I got recovery
  9969. and the ls succeeded.
  9970.  
  9971.  
  9972.  
  9973. 684.
  9974. Date: Thu, 09 Nov 89 14:09:44 PST
  9975. From: rab (Robert A. Bruce)
  9976. Subject: blob from hell lives!
  9977.  
  9978. I have a blob from hell in one of my tx windows.
  9979. Clearing the screen does not kill it, nor does
  9980. selecting something in another window.
  9981.  
  9982. I am running the default tx, compiled on Oct 17.
  9983.  
  9984.  
  9985.  
  9986. 685.
  9987. Date: Thu, 09 Nov 89 14:28:56 PST
  9988. From: Fred Douglis <douglis>
  9989. Subject: Re: Something funny with recovery? 
  9990.  
  9991. i thought there was a process that pinged and tried to recover, but i
  9992. had the same problem -- paprika said waiting for recovery but didn't
  9993. recover until i tried something new that made it talk to mint.
  9994.  
  9995.  
  9996.  
  9997. 686.
  9998. Date: Thu, 9 Nov 89 14:31:36 PST
  9999. From: brent (Brent Welch)
  10000. Subject: 2 O'Clock Glitch
  10001.  
  10002. Did your machine go through recovery at 2 this afternoon,
  10003. or perhaps at 11 this morning?  These glitches correspond
  10004. exactly with the times all the hosts are sampling their
  10005. kernel statistics by running a little script.
  10006. The global crontab is set up to do this
  10007. at 8am, 11, 2, 5, and 8pm.  The file servers take a sample
  10008. every hour.  Anyway, this overloads Mint enough to cause
  10009. glitches.  My machine got timeout when writing back both
  10010. its migInfo.new  and migInfo files.  It also had to try
  10011. recovery twice.  This is an interesting comment on scalability.
  10012. In the meantime I'm going to add a pseudo-random sleep to the script that
  10013. gets run by the crontab.
  10014.  
  10015.  
  10016.  
  10017. 687.
  10018. Date: Thu, 9 Nov 89 17:46:16 PST
  10019. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10020. Subject: vfork behaves differently
  10021.  
  10022. Our implementation is somehow different from the bsd implementation.
  10023. I have a program that runs under unix, but not under sprite. When
  10024. I changed the vfork to fork it works fine.  I think the semantics
  10025. of vfork state that the parent cannot run while the child is using
  10026. its resources.  This implies that the parent cannot run until the
  10027. child exec's, and I have a hunch that isn't happening.
  10028.  
  10029.  
  10030.  
  10031. 688.
  10032. Date: Thu, 9 Nov 89 23:50:08 PST
  10033. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10034. Subject: xkill
  10035.  
  10036. If I try to 'xkill' an iconified window my uwm exits.
  10037. hijack<jhh 3> XIO: I/O error
  10038. [2]    Exit 1               uwm
  10039. There is no man page for xkill either.
  10040.  
  10041.  
  10042. 689.
  10043. Date: Thu, 9 Nov 89 23:51:23 PST
  10044. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10045. Subject: more xkill info
  10046.  
  10047. I realized my last message was kind of lacking on details.  The windows
  10048. I want to kill, and the uwm that dies are on hijack running 1.034.
  10049. I usually run xkill from a sun3, or in this case a sun4.
  10050. xkill on a ds3100 doesn't do anything.
  10051.  
  10052.  
  10053.  
  10054. 690.
  10055. Date: Thu, 09 Nov 89 23:55:30 PST
  10056. From: Fred Douglis <douglis>
  10057. Subject: Re: more xkill info 
  10058.  
  10059. i believe the xkill/uwm problem exists under all configurations.  uwm
  10060. must "own" the icon when xkill goes to kill the client, or something.
  10061. or uwm just doesn't handle the condition it hits.  i don't think it's
  10062. an xkill bug.
  10063.  
  10064. xkill on a ds3100 usually works for me, though sometimes it's actually
  10065. killed my X server in the process.
  10066.  
  10067.  
  10068.  
  10069. 691.
  10070. Date: Fri, 10 Nov 89 10:59:56 PST
  10071. From: culler (David Culler)
  10072. Subject: To print or not to print
  10073.  
  10074. I can send file to lw533 from remote unix hosts (e.g. fennel), but not
  10075. remote sprite hosts (e.g. cardamom).  lpq says:
  10076. waiting for queue to be enabled on shallot
  10077.  
  10078.  
  10079.  
  10080. 692.
  10081. Date: Fri, 10 Nov 89 15:29:51 PST
  10082. From: ouster (John Ousterhout)
  10083. Subject: Re: To print or not to print
  10084.  
  10085. The problem is that at present every individual workstation has to
  10086. be entered in a particular printer table somewhere.  Bob, is there
  10087. a way to set up lpd in a fashion similar to sendmail, so that all
  10088. print requests coming from any sprite machine are considered to come
  10089. from "sprite.berkeley.edu", so that only a single entry has to be
  10090. made in the printer table to accomodate all Sprite hosts?
  10091.  
  10092.  
  10093.  
  10094. 693.
  10095. Date: Fri, 10 Nov 89 15:39:04 PST
  10096. From: Fred Douglis <douglis>
  10097. Subject: Re: To print or not to print 
  10098.  
  10099. Are you sure that's the problem?  Seems to me there's a difference
  10100. between unauthorized access (printing to the lps40, for example) and a
  10101. spooling problem that claims a queue is disabled.  I think it's the
  10102. sprite printing software that's confused.  I've seen this happen on
  10103. paprika even with machines that could normally print.
  10104.  
  10105.  
  10106.  
  10107. 694.
  10108. Date: Sun, 12 Nov 89 15:07:43 PST
  10109. From: pmchen (Peter M. Chen)
  10110. Subject: mustard crash--FPU interrupt in kernel mode
  10111.  
  10112. Fatal error: FPU Interrupt in Kernel mode
  10113. Entering debugger with a Breakpoint trap exception at PC 0x800b5550
  10114. I was running gremlin and ggraph and some other stuff.
  10115. Mustard is a decstation.
  10116. I am rebooting.
  10117.  
  10118.  
  10119.  
  10120. 695.
  10121. Date: Sun, 12 Nov 89 15:18:51 PST
  10122. From: pmchen (Peter M. Chen)
  10123. Subject: crash is repeatable
  10124.  
  10125. Same crash (FPU interrupt in Kernel Mode), same error message (same PC).
  10126. I was running the "new" kernel, which is 1.039, I think.  To duplicate the
  10127. problem:
  10128. cd ~pmchen/simul/out/su_size_sy2
  10129. simgg norm100k
  10130. (You have to have my alias for simgg).
  10131. Simgg runs several things, among them a nawk script and ggraph.
  10132. I'm going to go back to the "sprite" kernel.
  10133.  
  10134.  
  10135.  
  10136. 696.
  10137. Date: Sun, 12 Nov 89 15:38:33 PST
  10138. From: pmchen (Peter M. Chen)
  10139. Subject: ggraph is the culprit
  10140.  
  10141. Regarding the recent crashes:  Apparently ggraph, when given bad input
  10142. (example file is in ~pmchen/simul/out/su_size_sy2/debug.gg) can crash a
  10143. decstation (haven't tried it on a sun3 yet).
  10144.  
  10145. To duplicate the crash:
  10146. cd ~pmchen/simul/out/su_size_sy2
  10147. ggraph debug.gg
  10148.  
  10149.  
  10150.  
  10151. 697.
  10152. Date: Sun, 12 Nov 89 16:45:29 PST
  10153. From: shirriff (Ken Shirriff)
  10154. Subject: Makefile problem in /sprite/src/kernel/sprite
  10155.  
  10156. If I do "pmake" in /sprite/src/kernel/sprite on the ds3100, it links
  10157. a ds3100 kernel and then installs a sun3 kernel.  If I do "pmake ds3100"
  10158. it does the right thing.
  10159.  
  10160.  
  10161. 698.
  10162. Date: Sun, 12 Nov 89 17:45:46 PST
  10163. From: brent (Brent Welch)
  10164. Subject: Floating point on the DecStations
  10165.  
  10166. John Hartman has mentioned that he thinks there is
  10167. a race with the floating point unit when a trap
  10168. is taken on the DecStation, which can result in
  10169. a FPU trap in kernel mode.  This is apparently
  10170. the problem than Peter is having.  I'm sending this
  10171. because I'm not sure that John has posted a mail
  10172. message about this.  I do know that I've stopped
  10173. running my floating point programs on the DecStations
  10174. because they generate (NaN) every so often (divide
  10175. by zero), and every so often they do this at the
  10176. wrong time (time slice?) and cause their machine
  10177. to panic.
  10178.  
  10179.  
  10180.  
  10181. 699.
  10182. Date: Sun, 12 Nov 89 17:52:03 PST
  10183. From: tve (Thorsten von Eicken)
  10184. Subject: problems I encountered when starting (a long time ago) on sprite
  10185.  
  10186. I kept track of the major things I had problems with in the first weeks on
  10187. sprite. Now that I've almost forgotten about the file, let me post it...
  10188.     Thorsten
  10189.  
  10190. Instructions on how to boot machines.
  10191.     "-f tftp()foo" "le/ie(foo,goo,bar)gulp"
  10192.     howto make machines boot automatically
  10193. F1-key combinations
  10194.     F1-k to kill window system, F1-A
  10195. TX
  10196.     want customizable mouse actions (which mouse actions start, extend
  10197.     selections)
  10198.     tx shows #lines-1 x #columns-1 when resizing window
  10199.     tx insists on using ^U and ^H as kill/delete. look at parent tty!
  10200. Various
  10201.     clarify cross compilation possibilities (sun3/sun4/ds3100) & problems
  10202.     howto mount foreign nfs file systems
  10203.     manual pages out of date
  10204.     mkmf creates *.md directories only for the machine type it is running on
  10205.  
  10206.  
  10207.  
  10208. 700.
  10209. Date: Sun, 12 Nov 89 20:22:52 PST
  10210. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10211. Subject: Re: Floating point on the DecStations
  10212.  
  10213. There is definately a floating point problem on the Ds3100.  I suspect
  10214. the problem is flushing the fp pipeline when entering the kernel.  If
  10215. one of the instructions generates an exception (NaN for example) then
  10216. you get an exception while in the kernel.  The code has to be smarter
  10217. and understand when exceptions are allowed and when they aren't.  
  10218. I'll talk to Mike Nelson and see if we can come up with a simple solution.
  10219. Unfortunately I don't have time to look into it right now. 
  10220.  
  10221.  
  10222.  
  10223. 701.
  10224. Date: Fri, 10 Nov 89 12:34:31 PST
  10225. From: Adam R de Boor <deboor@buddy.Berkeley.EDU>
  10226. Subject: Re: more xkill info 
  10227.  
  10228. xkill issues an XKillClient using the window resource ID it gets back from the
  10229. button press. The server makes no distinction between windows that are
  10230. owned by the window manager and those that are owned by other clients. Since
  10231. the XKillClient causes the server to forcibly shut down the connection between
  10232. it and the client, there's nothing uwm can do if you click on an icon
  10233. when running xkill (Fred's right: the icons are owned by the window manager).
  10234.  
  10235. You will have to de-iconify the window and then run xkill. Sorry I never
  10236. wrote a man page for the beast. It struck me as self-explanatory, but something
  10237. describing foibles such as this would probably be a good thing....
  10238.  
  10239.  
  10240.  
  10241. 702.
  10242. Date: Sun, 12 Nov 89 15:15:50 PST
  10243. From: pmchen (Peter M. Chen)
  10244. Subject: RpcDoCall
  10245.  
  10246. Burble intercepted my broadcast for / in a reboot.
  10247. I have no idea what this means, and everything proceeded hunky-dory after
  10248. a 1 minute wait.
  10249. This was on mustard
  10250.  
  10251.  
  10252.  
  10253.  
  10254.  
  10255. 703.
  10256. Date: Mon, 13 Nov 89 15:24:24 PST
  10257. From: tve (Thorsten von Eicken)
  10258. Subject: queue to lps40 hung
  10259.  
  10260. mint.Berkeley.EDU: waiting for queue to be enabled on ginger
  10261. Rank   Owner      Job  Files                                 Total Size
  10262. 1st    tve        115  (standard input)                      50273 bytes
  10263.  
  10264.  
  10265. 704.
  10266. Date: Sat, 18 Nov 89 14:32:30 PST
  10267. From: brent (Brent Welch)
  10268. Subject: Change symbolic links to remote links
  10269.  
  10270. My measurements indicate that symbolic links between domains cause
  10271. the bulk of the pathname redirections.  These can be eliminated
  10272. by converting these cross-domain links to remote links and
  10273. setting up the server to export them.  This can be done on
  10274. a live system by first exporting the prefix
  10275. % prefix -x /tmp -l /c/tmp
  10276. and then changing the symbolic link to a remote link.
  10277. Remember to update the server's mount table with an entry like:
  10278. Export    /tmp    /c/tmp
  10279.  
  10280. Pathname redirections occur in about 15% of the lookups, although
  10281. Mint has most of them, about 22% of its lookups bounce through
  10282. a symbolic link.  Overall 0.04% of the lookups bounce through
  10283. a remote link, although Mint sees a lot of these, too, 0.48%
  10284. up from 0.04% before ``/sprite/src'' was added.
  10285.  
  10286. Here is the set of symbolic links in '/'
  10287. lrwxrwxrwx  1 root            5 Jun 29 09:16 X -> /b/X
  10288. lrwxrwxrwx  1 nelson          7 Jul 13 16:37 X11 -> /a/X11
  10289. lrwxrwxrwx  1 root           11 Oct 30 13:32 X11R3 -> /mic/X11R3
  10290. lrwxrwxrwx  1 root           12 Oct 26  1987 att -> /sprite/att
  10291. lrwxrwxrwx  1 root           13 Jan 22  1988 bin -> /sprite/cmds
  10292. lrwxrwxrwx  1 root            9 Aug 11 12:59 emacs -> /c/emacs
  10293. lrwxr-xr-x  1 root           12 Aug 10  1987 lib -> /sprite/lib
  10294. lrwxrwxrwx  1 root           13 Aug  7  1988 prob -> /test/rmprob
  10295. lrwxrwxrwx  1 root            8 Jul 11 11:21 raid -> /b/raid
  10296. lrwxrwxrwx  1 root           16 Jul 26 12:57 spare -> /rosemary/spare
  10297. lrwxrwxr-x  1 root           13 Jun 15  1988 swap -> /sprite/swap
  10298. lrwxrwxrwx  1 root            9 Nov 15 10:04 t88 -> /tmurder
  10299. lrwxrwxrwx  1 root           13 Oct 18 15:26 tftpboot -> /sprite/boot
  10300. lrwxrwxrwx  1 root           10 Aug 10 16:30 ultrix -> /c/ultrix
  10301.  
  10302. Note also that /swap is a link to /sprite/swap, and everything
  10303. there is also a link.  I know mint shouldn't swap to the root
  10304. domain, but it seems like /swap could be changed back to
  10305. a directory, and the link for mint could point to '/sprite/swap/32'
  10306. while the others would be links to '/swap1/hostnum'.
  10307. The link from /tftpboot to /sprite/boot is probably ok to leave,
  10308. but all the bin directories should probably be exported so that
  10309. mint is out of the loop.
  10310.     brent
  10311.  
  10312.  
  10313. 705.
  10314. Date: Mon, 13 Nov 89 18:23:54 PST
  10315. From: brent (Brent Welch)
  10316. Subject: System crash
  10317.  
  10318. Mint was accidentally rebooted with an old kernel on Sunday night,
  10319. and it died monday afternoon with a known bug.  Unforetuneatly,
  10320. Oregano got confused sometime later and wedged things for a while.
  10321. I debugged in and re-discovered an ugly problem I'd forgotten about.
  10322. Somehow a Proc_ServerProc is leaving a handle locked and then
  10323. going away.  This quickly screws things up.  It seems clearly
  10324. related to recovery, so I'll spend some time looking at the code.
  10325.     brent
  10326.  
  10327.  
  10328. 706.
  10329. Date: Sat, 18 Nov 89 16:23:18 PST
  10330. From: brent (Brent Welch)
  10331. Subject: dump & bug status
  10332.  
  10333. Murder was put into the debugger on Saturday afternoon,
  10334. and it was part way through a dump at the time.  Could
  10335. someone in 477 check up on this?  It was in a recovery
  10336. loop with Mint, but I accidentally killed mint trying
  10337. to continue execution and catch the problem.
  10338.  
  10339. I've found yet another bug in the Rpc_Daemon process,
  10340. another sublte synchronization thing that showed up
  10341. under load.
  10342.  
  10343. There was also a deadlock on TimerMutex
  10344. that I didn't understand.  Two processes were in
  10345. Timer_ScheduleRoutine.  One was being interrupted
  10346. so it must have been executing near the LOCK/UNLOCK
  10347. code.  Someone might verify that interrupts
  10348. are being dis-abled soon enough in the LOCK_MONITOR
  10349. macro so that the deadlock warning is correct.
  10350.     brent
  10351.  
  10352.  
  10353. 707.
  10354. Date: Sat, 18 Nov 89 16:56:17 PST
  10355. From: pmchen (Peter M. Chen)
  10356. Subject: mail had no "to" field
  10357.  
  10358. The following mail had no "to" field in the header.  I suspect it was
  10359. being sent to Garth.  
  10360.  
  10361. >From eklee Sat Nov 18 00:10:18 1989
  10362. >Received: by sprite.Berkeley.EDU (5.59/1.29)
  10363. >    id AA797494; Sat, 18 Nov 89 00:10:18 PST
  10364. >Date: Sat, 18 Nov 89 00:10:18 PST
  10365. >From: eklee (Edward K. Lee)
  10366. >Message-Id: <8911180810.AA797494@sprite.Berkeley.EDU>
  10367. >Subject: Second order disk model
  10368. >Cc: pmchen
  10369. >Status: R
  10370. >
  10371. >Pete and I have "perfected" a second order disk model.
  10372. >This model takes as parameters, the number of cylinders, the step time,
  10373. >the average seek time, and the full stroke seek time.
  10374. >The model guarantees the values of the step, average and full stroke seek
  10375. >times to equal that of the parameters.
  10376. >We compared the amdahl drive characteristic to that predicted by the model
  10377. >and they were very very close.
  10378. >The model is in ~eklee/diskparam.
  10379. >
  10380. >Ed
  10381. >
  10382.  
  10383.  
  10384. 708.
  10385. Date: Sat, 18 Nov 89 16:58:22 PST
  10386. From: pmchen (Peter M. Chen)
  10387. Subject: long running job dies on apathy
  10388.  
  10389. I have a script which dies on apathy, but not on any other machine.
  10390. On apathy it dies with 
  10391. MachExceptionHandler: User bus error on ld or st
  10392.  
  10393. The program can be run by:
  10394. cd ~pmchen/simul
  10395. go apathy
  10396. (You probably have to be me to get the paths, etc. right).
  10397.  
  10398.  
  10399.  
  10400. 709.
  10401. Date: Tue, 14 Nov 89 12:29:35 PST
  10402. From: pmchen (Peter M. Chen)
  10403. Subject: mustard.Berkeley.EDU: waiting for queue to be enabled on coriander
  10404.  
  10405. This has caused me to not be able print for the last couple hours (during
  10406. which I've tried rebooting mustard, coriander, power cycling the printer,
  10407. etc.).
  10408.  
  10409. Any tips as to how to continue?  This happens consistently when I print
  10410. several jobs in a row.
  10411.  
  10412. mustard.Berkeley.EDU: waiting for queue to be enabled on coriander
  10413. Rank   Owner      Job  Files                                 Total Size
  10414. 1st    pmchen     317  /users/pmchen/reminders               1997 bytes
  10415.  
  10416.  
  10417.  
  10418. 710.
  10419. Date: Tue, 14 Nov 89 10:26:48 PST
  10420. From: pmchen (Peter M. Chen)
  10421. Subject: printing many things
  10422.  
  10423. When printing many things, one after another, weird stuff happens with the
  10424. print daemon.  First it stalls and doesn't send to coriander (the unix
  10425. machine which serves our printer).  Then an lpq returns with:
  10426. mustard% lpq
  10427.  
  10428. mustard.Berkeley.EDU: Warning: no daemon present
  10429. Rank   Owner      Job  Files                                 Total Size
  10430. 1st    pmchen     286  (standard input)                      16461 bytes
  10431. 2nd    pmchen     287  (standard input)                      14940 bytes
  10432. 3rd    pmchen     288  (standard input)                      13119 bytes
  10433. 4th    pmchen     289  (standard input)                      12937 bytes
  10434.  
  10435. no entries
  10436.  
  10437. We can fix things by rebooting coriander, but that's hardly a good
  10438. long term solution.  It's odd because coriander can still print fine.
  10439.  
  10440.  
  10441.  
  10442. 711.
  10443. Date: Tue, 14 Nov 89 12:41:56 PST
  10444. From: tve (Thorsten von Eicken)
  10445. Subject: printer, printer, printer,  where are you?
  10446.  
  10447. [gluttony tve] lpq -Plps40
  10448. gluttony.Berkeley.EDU: waiting for queue to be enabled on ginger
  10449. Rank   Owner      Job  Files                                 Total Size
  10450. 1st    johnw      133  shifter.ps                            8573 bytes
  10451. 2nd    johnw      134  shift_block.ps                        12586 bytes
  10452. 3rd    johnw      135  shifter.bdnet                         2121 bytes
  10453. 4th    johnw      136  shift_block.bdnet                     480 bytes
  10454. 5th    johnw      137  shift_block.bdnet                     480 bytes
  10455.  
  10456. ginger.Berkeley.EDU: connection to ucbarpa is down
  10457.  
  10458. -------------------- at the same time --------------
  10459. ernie[tve] lpq -Plps40
  10460.  
  10461. Rank   Owner      Job  Files                                 Total Size
  10462. active fisher     261  standard input                        14058 bytes
  10463. 0 bytes
  10464. 2nd    gill       238  taduty                                1369 bytes
  10465. 3rd    fisher     263  standard input                        47549 bytes
  10466. 4th    fisher     753  standard input                        17739 bytes
  10467. 5th    fisher     754  standard input                        15685 bytes
  10468.  
  10469.  
  10470.  
  10471. 712.
  10472. Date: Tue, 14 Nov 89 10:33:56 PST
  10473. From: brent (Brent Welch)
  10474. Subject: -Ppulla restarted
  10475.  
  10476. I was able to get the printer in Peter Chen's office
  10477. going again by restarting the lpd process on sage.
  10478. Their printer is called "pulla", by the way.
  10479.  
  10480.  
  10481.  
  10482. 713.
  10483. Date: Tue, 14 Nov 89 16:02:28 PST
  10484. From: eklee (Edward K. Lee)
  10485. Subject: possible pmake bug
  10486.  
  10487. I was trying to run pmake in ~eklee/sim on a ds3100.
  10488. Pmake complains about:
  10489. #if (%(TM) == "ds3100")
  10490. "local.mk", line 3: Warning: Malformed conditional (( %(TM) == "ds3100" ))
  10491. but accepts:
  10492. #if (%(TM) == "sun3")
  10493.  
  10494.  
  10495.  
  10496. 714.
  10497. Date: Wed, 15 Nov 89 13:42:56 PST
  10498. From: jhh@sprite.Berkeley.EDU (John H. Hartman)
  10499. Subject: ntalkd bug
  10500.  
  10501. Ntalkd was in an infinite loop on hijack.  It was also changing pids every
  10502. so often.  I put it into the debugger, but was unable to find an unstripped
  10503. version of the binary, nor was I able to build a new binary.  
  10504.  
  10505.  
  10506.  
  10507.  
  10508. 715.
  10509. Date: Wed, 15 Nov 89 11:52:33 PST
  10510. From: gibson (Garth Gibson)
  10511. Subject: pmake errors
  10512.  
  10513. On basil VERSION 1.034 (sun3) (17 Oct 89 14:18:43)
  10514. I saw these messages:
  10515. <11>Nov 15 11:37:58 syslog: Db_Open: error opening file /sprite/admin/migInfo.new: permission denied.
  10516. <11>Nov 15 11:37:58 syslog: Db_Open: error opening file /sprite/admin/migInfo.new: permission denied.
  10517. <11>Nov 15 11:38:37 syslog: Db_Open: error opening file /sprite/admin/migInfo.new: permission denied.
  10518. <11>Nov 15 11:38:38 syslog: Db_Open: error opening file /sprite/admin/migInfo.new: permission denied.
  10519. <11>Nov 15 11:38:51 syslog: Db_Open: error opening file /sprite/admin/migInfo.new: permission denied.
  10520. <11>Nov 15 11:38:52 syslog: Db_Open: error opening file /sprite/admin/migInfo.new: permission denied.
  10521. <11>Nov 15 11:39:27 syslog: Db_Open: error opening file /sprite/admin/migInfo.new: permission denied.
  10522. <11>Nov 15 11:39:27 syslog: Db_Open: error opening file /sprite/admin/migInfo.new: permission denied.
  10523.  
  10524. then my pmake hung with the message:
  10525. basil 579> make
  10526. --- sun3.md/cvscan.o ---
  10527. rm -f sun3.md/cvscan.o
  10528. cc  -g -DNODATA -DTESTING=1 -DKERNEL=1 -L../raidlib -L../sim -g -O -msun3  -I/users/gibson/lib/include -I. -I. -Isun3.md -I../raidlib -I../sim -I../sim/sun3.md -I/sprite/src/kernel/dev -I/sprite/src/kernel/dev/sun3.md -I/sprite/src/kernel/Include -I/sprite/src/kernel/Include/sun3.md -c cvscan.c -o sun3.md/cvscan.o
  10529. --- sun3.md/devDisk.o ---
  10530. rm -f sun3.md/devDisk.o
  10531. cc  -g -DNODATA -DTESTING=1 -DKERNEL=1 -L../raidlib -L../sim -g -O -msun3  -I/users/gibson/lib/include -I. -I. -Isun3.md -I../raidlib -I../sim -I../sim/sun3.md -I/sprite/src/kernel/dev -I/sprite/src/kernel/dev/sun3.md -I/sprite/src/kernel/Include -I/sprite/src/kernel/Include/sun3.md -c devDisk.c -o sun3.md/devDisk.o
  10532. make: Child (54f) not in table?
  10533.  
  10534. ps tells me that make is in some form of infinite loop:
  10535. USER     PID   %CPU %MEM  SIZE   RSS STATE   TIME PR COMMAND
  10536. gibson   b054e 75.0  3.3   424   272 READY   3:43    make 
  10537. gibson   2050b 13.2 11.7  1648   960 READY 235:08    Xsprite :0 
  10538. gibson   4051d  2.4  7.2   616   592 READY   8:29    tx =80x34+0-0 
  10539.  
  10540. I did a Ctl-C on the make and it went into the debugger with the syslog msg:
  10541. MachTrap: Bus error in user proc b054e, PC = f254, addr = 2e63207b BR Reg 2c020
  10542.  
  10543. the directory I am working in is ~gibson/RAID/sim.RAID/work
  10544.  
  10545. i reran the make, got more Db_Open permission denied messages then make
  10546. died with:
  10547. basil 580> make
  10548. make: Lockfile owned by you -- ignoring it
  10549. --- sun3.md/mult.o ---
  10550. rm -f sun3.md/mult.o
  10551. cc  -g -DNODATA -DTESTING=1 -DKERNEL=1 -L../raidlib -L../sim -g -O -msun3  -I/users/gibson/lib/include -I. -I. -Isun3.md -I../raidlib -I../sim -I../sim/sun3.md -I/sprite/src/kernel/dev -I/sprite/src/kernel/dev/sun3.md -I/sprite/src/kernel/Include -I/sprite/src/kernel/Include/sun3.md -c mult.c -o sun3.md/mult.o
  10552. mult.c: In function mult:
  10553. mult.c:43: warning: assignment of pointer from integer lacks a cast
  10554. --- sun3.md/pseudoIO.o ---
  10555. rm -f sun3.md/pseudoIO.o
  10556. cc  -g -DNODATA -DTESTING=1 -DKERNEL=1 -L../raidlib -L../sim -g -O -msun3  -I/users/gibson/lib/include -I. -I. -Isun3.md -I../raidlib -I../sim -I../sim/sun3.md -I/sprite/src/kernel/dev -I/sprite/src/kernel/dev/sun3.md -I/sprite/src/kernel/Include -I/sprite/src/kernel/Include/sun3.md -c pseudoIO.c -o sun3.md/pseudoIO.o
  10557.  
  10558. Segmentation violation
  10559.  
  10560.  
  10561. MachTrap: Bus error in user proc 53d, PC = 739e, addr = 2d672035 BR Reg 20
  10562.  
  10563. so I tried "pmake -x", got more Db_Open permission denied messages and
  10564. another pmake: Child (d0539) not in table?
  10565.  
  10566.  
  10567.  
  10568.  
  10569. 716.
  10570. Date: Wed, 15 Nov 89 13:35:22 PST
  10571. From: brent (Brent Welch)
  10572. Subject: Proc_Lock race?
  10573.  
  10574. Kvetching didn't quite make it out of recovery.
  10575. I found that it was in Proc_WakeWaitingProcesses,
  10576. stuck in Proc_Lock on an unused, unlocked process
  10577. table entry.  The condition variable was also zero,
  10578. which means noone thought it was being waited on.
  10579. The lock information said the process
  10580. table entry had been last locked by some other process
  10581. that had also gone away by this time.  It looks like
  10582. there is some race between ProcFreePCB, Proc_Lock,
  10583. and Proc_LockID.
  10584.  
  10585. Here is an abstract of each routine.  Any ideas?
  10586.  
  10587. Proc_Lock(pcbPtr)
  10588. {
  10589.     LOCK_MONITOR;
  10590.     while (procPtr->genFlags & PROC_LOCKED) {
  10591.     (void) Sync_Wait(&procPtr->lockedCondition, FALSE);
  10592.     }
  10593.     procPtr->genFlags |= PROC_LOCKED;
  10594.     UNLOCK_MONITOR;
  10595. }
  10596.  
  10597. Proc_Unlock(procPtr)
  10598. {
  10599.     LOCK_MONITOR;
  10600.     procPtr->genFlags &= ~PROC_LOCKED;
  10601.     Sync_Broadcast(&procPtr->lockedCondition);
  10602.     UNLOCK_MONITOR;
  10603. }
  10604.  
  10605. ProcFreePCB(procPtr)
  10606. {
  10607.     LOCK_MONITOR;
  10608.     while (procPtr->genFlags & PROC_LOCKED) {
  10609.     (void) Sync_Wait(&procPtr->lockedCondition, FALSE);
  10610.     }
  10611.     procPtr->state = PROC_UNUSED;
  10612.     procPtr->genFlags = 0;
  10613.     UNLOCK_MONITOR;
  10614. }
  10615.  
  10616. Proc_LockPID(pid)
  10617.     Proc_PID    pid;
  10618. {
  10619.     LOCK_MONITOR;
  10620.     procPtr = proc_PCBTable[Proc_PIDToIndex(pid)];
  10621.     while (TRUE) {
  10622.     if (procPtr->state == PROC_UNUSED || procPtr->state == PROC_DEAD) {
  10623.         procPtr = (Proc_ControlBlock *) NIL;
  10624.         break;
  10625.     }
  10626.     if (procPtr->genFlags & PROC_LOCKED) {
  10627.         do {
  10628.         (void) Sync_Wait(&procPtr->lockedCondition, FALSE);
  10629.         } while (procPtr->genFlags & PROC_LOCKED);
  10630.     } else {
  10631.         if (!Proc_ComparePIDs(procPtr->processID, pid)) {
  10632.         procPtr = (Proc_ControlBlock *) NIL;
  10633.         } else {
  10634.         procPtr->genFlags |= PROC_LOCKED;
  10635.         }
  10636.         break;
  10637.     }
  10638.     }
  10639.  
  10640.     UNLOCK_MONITOR;
  10641.     return(procPtr);
  10642. }
  10643.  
  10644.  
  10645.  
  10646. 717.
  10647. Date: Wed, 15 Nov 89 18:13:35 PST
  10648. From: gibson (Garth Gibson)
  10649. Subject: brk bug
  10650.  
  10651. I was reading comp.os.mach and I saw this brk bug testing program (below).
  10652. I compiled it on rosemary and ernie where it passes, but on basil and
  10653. apathy it fails.  As it fails to "free" user heap store and users do not
  10654. often free heap store to the system, you may not care.
  10655. garth
  10656.  
  10657. /*
  10658. ** From: mcm@rti.UUCP (Mike Mitchell)
  10659. ** Subject: Mach 2.5 bug
  10660. ** Keywords: kernel expand(), PTE's
  10661. ** Date: 16 Nov 89 00:35:56 GMT
  10662. ** Organization: Research Triangle Institute, RTP, NC
  10663. ** 
  10664. ** I have run into a problem with Mach 2.5.  It is a problem that been in
  10665. ** BSD 4.X until BSD 4.3-Tahoe.  The fix is well understood for BSD systems,
  10666. ** but I'm not sure how it fits into the Mach kernel.
  10667. ** 
  10668. ** The problem is that memory pages are not returned properly when using the
  10669. ** 'brk()' library routine to free them.  More specifically, the PTE entries
  10670. ** are not invalidated properly when shrinking a region.  I can supply some
  10671. ** diffs to fix the problem for BSD systems, but I've never seen Mach source.
  10672. ** 
  10673. ** Anyway, try running the enclosed program.  Please tell me if it works on
  10674. ** your machine, and if so, what version of Mach and the type of CPU.
  10675. ** 
  10676.  * This program shows off a problem with the kernel's "expand()" routine.
  10677.  */
  10678. #include <signal.h>
  10679.  
  10680. main()
  10681. {
  10682.     char *old_break, *cp;
  10683.     int i;
  10684.     extern char *sbrk(), *brk();
  10685.     void segv();
  10686.  
  10687.     signal(SIGSEGV, segv);
  10688.  
  10689.     i = getpagesize();
  10690.     old_break = sbrk(0);        /* get the current "break" */
  10691.     (void) brk(old_break + 2*i);    /* bump it up 2 pages */
  10692.  
  10693.     cp = old_break + i + 256;
  10694.     *cp = 1;                /* write into a new page */
  10695.  
  10696.     (void) brk(old_break);        /* release the memory */
  10697.  
  10698.     *cp = 2;                /* write into the page again.  This */
  10699.                     /* time, you should get a sigsegv */
  10700.  
  10701.     printf("Your brk routine is broken!\n");
  10702.     exit(1);
  10703. }
  10704.  
  10705. void segv()
  10706. {
  10707.     printf("Your brk routine works correctly.\n");
  10708.     exit(0);
  10709. }
  10710.  
  10711. /*
  10712. ** Mike Mitchell {decvax,seismo,ihnp4,philabs}!mcnc!rti!mcm  mcm@rti.rti.org
  10713. **
  10714. ** "If you hear me talking on the wind, You've got
  10715. **  to understand, We must remain perfect strangers"        (919) 541-6098
  10716. */
  10717.  
  10718.  
  10719. 718.
  10720. Date: Wed, 15 Nov 89 18:22:22 PST
  10721. From: brent (Brent Welch)
  10722. Subject: Makefile broken in /sprite/src/kernel/sprite
  10723.  
  10724. The Makefile in /sprite/src/kernel/sprite only works
  10725. if a TM environment variable is set.  I don't ordinarily
  10726. set this.  I got the following error messages before
  10727. I figured that I should set TM.
  10728.  
  10729. "Makefile", line 28: Warning: Malformed conditional (!empty(TM))
  10730. "Makefile", line 30: #if-less #else
  10731. "Makefile", line 32: #if-less #endif
  10732. Fatal errors encountered -- cannot continue
  10733.  
  10734.  
  10735.  
  10736. 719.
  10737. Date: Wed, 15 Nov 89 19:00:18 PST
  10738. From: brent (Brent Welch)
  10739. Subject: Failed recovery
  10740.  
  10741. I guess I have to take back my earlier complaints about
  10742. page faults using up all the Proc_ServerProcs such that
  10743. recovery is prevented.  Sage failed to recover after
  10744. Allspice rebooted, and I learned something by debugging
  10745. it.  The Proc_ServerProcs are not used at all!  They
  10746. were all available.  There is some other reason that
  10747. recovery doesn't kick in, and I haven't figured it out,
  10748. yet.  Also, I didn't find anybody stuck on the Proc_Lock,
  10749. like what happened to Kvetching.  Anyway, please let
  10750. me know if your machine doesn't make it through recovery.
  10751. I need to take another look at it.
  10752.  
  10753.  
  10754.  
  10755. 720.
  10756. Date: Wed, 15 Nov 89 19:05:24 PST
  10757. From: tve (Thorsten von Eicken)
  10758. Subject: /sprite/admin/howto/addNewHost
  10759.  
  10760. I'm in the process of adding buzz (a sun3), here's what I'm encountering:
  10761.  
  10762. #2. /etc/spritehosts is checked in (RCS) by mendel. I had to override.
  10763. #3. /tftpboot is now on mint, not on ginger
  10764. #3. the ndboot stuff seems to be bogus. The internet-address-file link is to
  10765.     sun3.md/netBoot (at least I think)
  10766. #3. well, the whole stuff with the devices and so is bogus, isn't it?
  10767. #4. it seems this step HAS gone away
  10768. #5. the fsmakedev is unclear. What's the serialB business? It is not said
  10769.     that a dev directory has to be crated in /hosts/foo, and that the
  10770.     syslog should go there.
  10771. #7. what's this "export command for the root partition"?
  10772. #10. /etc/hosts.equiv is checked out by jhh
  10773. #10. what's the business of 'hostname' vs. 'hostname.Berkeley.EDU' in
  10774.     /etc/hosts.equiv?
  10775.  
  10776. Ok, except that I can't find the netBoot for sun3's with a lance ethernet, it
  10777. seems I got through...
  10778.     Thorsten
  10779.  
  10780.  
  10781.  
  10782. 721.
  10783. Date: Thu, 16 Nov 89 02:08:07 PST
  10784. From: shirriff (Ken Shirriff)
  10785. Subject: Allspice problems
  10786.  
  10787. Just as I decided to go home tonight, allspice started spewing out
  10788. consist reply errors on pride.  I checked allspice and it had
  10789. about 40 tftpd's in the debugger.  I tried to debug one of the
  10790. tftpd's from nutmeg, but nutmeg hung.  I tried to debug tftpd
  10791. from allspice, but this seemed to upsed mint, which started trying
  10792. to do recovery with allspice and failed.  Since I couldn't access
  10793. anything from allspice, I couldn't do any debugging so I rebooted it.
  10794. I then found that the ipServer on mint seemed to be in an infinite
  10795. loop but I couldn't debug it because accessing /sprite/src/daemons 
  10796. needed to wait on allspice.  At this point, mint was printing out
  10797. heaps of messages.  Allspice came back up and I left Bob to look
  10798. at the ipServer.
  10799.  
  10800.  
  10801.  
  10802. 722.
  10803. Date: Thu, 16 Nov 89 08:25:07 PST
  10804. From: brent (Brent Welch)
  10805. Subject: RPC Ethernet Protocol
  10806.  
  10807. I suspect that once again Sprite RPC is colliding
  10808. with some other Ethernet protocol.  While we changed
  10809. our protocol number away from the XNS_IDP number (0x600),
  10810. we now use (0x500), a nice round number that is probably
  10811. used for some other protocol.  All the messages about
  10812. RPC version mismatch are probably due to this.
  10813.  
  10814. The fact that the Sun4 net module doesn't recompile is
  10815. also a problem, but cause the network interface gets
  10816. reset after too many errors, and eventually this can
  10817. tickle the bug where a sender gets hung.  Allspice
  10818. is still susceptible to this bug.  I'll bet that's
  10819. what happened last night.  There were lots of complaints
  10820. about bad RPC packets at oregano, and lots of trouble
  10821. between it and allspice.
  10822.  
  10823.  
  10824.  
  10825. 723.
  10826. Date: Thu, 16 Nov 89 10:56:59 PST
  10827. From: johnw (John Wawrzynek)
  10828. Subject: TLB fault
  10829.  
  10830. I have been experiencing the following when I use emacs rmail to
  10831. respond to a message:
  10832.  
  10833. Bad user TLB fault in process xxx: pc=4752e8 addr=646e6553
  10834.  
  10835. xxx is an emacs process.  Thanks.
  10836.  
  10837.  
  10838.  
  10839. 724.
  10840. Date: Thu, 16 Nov 89 11:28:43 PST
  10841. From: Fred Douglis <douglis>
  10842. Subject: Re: hung walls => pseudo-device startup bug 
  10843.  
  10844. seems like you could preserve the blocking semantics, if you think
  10845. they're desirable, with two fixes: first, if the server exits, go
  10846. through and find any processes blocked on the pdev; and second, make
  10847. the open call use some sort of callback so that the open doesn't get
  10848. hung and is instead delayed and retried.  That way it would be
  10849. interruptable.  It seems like all pdev-related RPCs should really be
  10850. done in a way that the failure of a user-level process won't hang
  10851. another process forever.  spring cleaning item, maybe?  
  10852. Fred
  10853.  
  10854.  
  10855. 725.
  10856. Date: Thu, 16 Nov 89 11:11:58 PST
  10857. From: ouster (John Ousterhout)
  10858. Subject: Trashed mail file
  10859.  
  10860. My mail inbox (/sprite/spool/mail/ouster) got trashed again today,
  10861. but the symptoms lead me to believe it's sendmail that's doing the
  10862. trashing.  There are two messages in the mailbox where exactly one
  10863. line (or perhaps less than a line?) got messed up.  Here is the raw
  10864. text from the inbox:
  10865.  
  10866.     From douglis Thu Nov 16 10:25:35 1989
  10867.     Received: from garnet.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  10868.         id AA663622; Thu, 16 Nov 89 10:25:33 PST
  10869.     Received: by garnet.berkeley.edu (5.57/1.32)
  10870.         id AA25948; Thu, 16 Nov 89 08:50:54 PST
  10871.     Date: Thu, 16 Nov 89 08:50:54 PST
  10872.     From: c60b2-am@garnet.berkeley.edu (Kevin Gong)
  10873.     Message-Id: <8911161650.AA25948@garnet.berkeley.edu>
  10874.     To: c60b2-am@garnet.berkeley.edu, ouster@sprite.Berkeley.EDU
  10875.     Subject: Re: "value" vs. "machineCode"
  10876.     
  10877.     Well, it's in the homework description, but it's also in the skeleton
  10878.     for one or more of the programs (classify.c, and/or findIns.c) in
  10879.     the comments.
  10880.     
  10881.      - kevin
  10882.     
  10883.     From douglis Thu Nov 16 10:31:35 1989
  10884.     Received: from janus.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  10885.         id AA401482; Thu, 16 Nov 89 10:31:31 PST
  10886.     Received: by janus.Berkeley.EDU (5.57/1.34)
  10887.         id AA00686; Thu, 16 Nov 89 08:33:54 PST
  10888.     Date: Thu, 16 Nov 89 08:33:54 PST
  10889.     From: ilp@janus.Berkeley.EDU (Shelley Sprandel)
  10890.     Message-Id: <8911161633.AA00686@janus.Berkeley.EDU>
  10891.     To: ouster@sprite.Berkeley.EDU
  10892.     Subject: ILP meeting & software
  10893.     Cc: ilp@janus.Berkeley.EDU, neureuth@esvax.berkeley.edu
  10894.     
  10895.     I talked with Andy Neureuther about having Cindy at the meeting.  He feels
  10896.     it might be better not to have her there.  I'll have copies of the list
  10897.     of faculty responses she's received.  Andy also wants to know the status
  10898.     of several things: the Commerce Dept. GTDAs and the draft of the license
  10899.     to companies who want to use the software commercially.
  10900.     
  10901.     Unfortunately, Cindy has very bad carpal tunnel syndrome problems,
  10902.     has two doctor's appointments today, and won't be in.  I'll try calling
  10903.     her at home.  She comes in at 7:00 usually, so we should have the
  10904.     information in time for the meeting.
  10905.                                 -Shelley
  10906.  
  10907. Notice that the messages appear to be perfectly well-formed except that
  10908. the first "From" line in each message lists Fred as the sender instead of
  10909. the real sender.  These messages were consecutive in the mailbox.  The
  10910. cleanliness of the substitution makes me think it isn't a random
  10911. file-system error that's doing it, but rather something in the mailer.
  10912. I've saved a copy of the whole mailbox in ~ouster/mail.bad in case
  10913. anyone wants to look at the bits in more detail.
  10914.  
  10915. By the way, Fred, I suspect that two message from you were lost.  Can
  10916. you resend them?
  10917.                     -John-
  10918.  
  10919.  
  10920. 726.
  10921. Date: Thu, 16 Nov 89 11:15:51 PST
  10922. From: Fred Douglis <douglis>
  10923. Subject: Re: Trashed mail file 
  10924.  
  10925. mint was acting up before and i had to restart the ipServer and
  10926. associated daemons.  but before that, i found that a bunch of daemons
  10927. weren't running, and i started sendmail by hand. i also ran "sendmail
  10928. -q" to process the mail queue.  for some reason, mail delivered by
  10929. that sendmail run came out as "From douglis" for both you and mary.
  10930. sendmail is setuid, so i don't know why that would be.
  10931.  
  10932.  
  10933.  
  10934. 727.
  10935. Date: Thu, 16 Nov 89 11:22:52 PST
  10936. From: Fred Douglis <douglis>
  10937. Subject: uwm bug
  10938.  
  10939. the new uwm in X11R3 apparently doesn't pass environment variables
  10940. properly.  I can't start programs from within uwm unless I specify a
  10941. display on the command line.  /X/cmds.ds3100/uwm works fine.  I can
  10942. start programs from my shell just fine.
  10943.  
  10944.  
  10945.  
  10946. 728.
  10947. Date: Thu, 16 Nov 89 11:24:01 PST
  10948. From: brent (Brent Welch)
  10949. Subject: Re: hung walls => pseudo-device startup bug
  10950.  
  10951. Apparently I need to fix the pseudo-device implementation
  10952. so open attempts by clients are denied, not blocked,
  10953. if the server process hasn't fully started up.  Currently
  10954. there is some situation where rlogind creates
  10955. a ``/hosts/foo/rloginN'' pseudo-device, forks a child,
  10956. and exits without finishing its startup duties as
  10957. a pseudo-device server.  The child process hangs,
  10958. and subsequent wall processes also hang, because they
  10959. too are clients of the pseudo-device.
  10960.  
  10961.  
  10962.  
  10963. 729.
  10964. Date: Thu, 16 Nov 89 01:35:07 -0800
  10965. From: tve@ernie.Berkeley.EDU (Thorsten Von  Eicken)
  10966. Subject: Re: hung walls => pseudo-device startup bug
  10967.  
  10968. I just looked at allpice's syslog:
  10969. The world seems to be in endless recovey loops. Crackle thinks
  10970. allspice is recovering every 30 seconds or so. Allpice has messages
  10971. about mint and oregano recovering all the time.
  10972.  
  10973.  
  10974.  
  10975. 730.
  10976. Date: Thu, 16 Nov 89 14:03:40 PST
  10977. From: Fred Douglis <douglis>
  10978. Subject: trashed file
  10979.  
  10980. I found a file with a bunch of nulls in it.  Since the file is updated
  10981. every 5 minutes, I can put a bound on when the problem occurred: after
  10982. yesterday at 12:40 pm, and probably before yesterday at 1:25 pm.
  10983. Assault did not reboot at that time or since.
  10984.  
  10985. I put the file in /user2/BADFILES/mig-usage; it's a couple of
  10986. megabytes so if no one is interested in it then it should be deleted.
  10987.  
  10988.  
  10989.  
  10990. 731.
  10991. Date: Thu, 16 Nov 89 14:38:31 PST
  10992. From: douglis (Fred Douglis)
  10993. Subject: recovery killed X
  10994.  
  10995. after kvetching recovered, the X server just kept printing out 
  10996. "WaitForSomething() errno=22" over and over.  
  10997.  
  10998.  
  10999.  
  11000. 732.
  11001. Date: Thu, 16 Nov 89 22:00:47 PST
  11002. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  11003. Subject: mint hit consistency deadlock again
  11004.  
  11005. mint wedged with the good old problem where lots of rpc servers backed up
  11006. on a consistency-in-progress flag for host 18, whichever that is (is spritehosts
  11007. stored on unix anywhere??).... when i tried to continue mint to see what
  11008. i might learn, it died because as usual i forgot to say "pid 0" before
  11009. continuing it.
  11010.  
  11011.  
  11012.  
  11013. 733.
  11014. Date: Thu, 16 Nov 89 21:02:35 PST
  11015. From: david@rosemary.Berkeley.EDU (David A. Wood)
  11016. Subject: Unstoppable pmake??
  11017.  
  11018. I have been having some problems with pmake getting in an unkillable
  11019. state tonight.  The process 'WAIT's right at the beginning. Perhaps
  11020. for a filesystem??  In any case, it does not respond to a ^C or ^Z,
  11021. nor can I kill it with kill -KILL.
  11022. The system is fine; I can rlogin again, but I can't get any work done.
  11023.  
  11024.  
  11025.  
  11026. 734.
  11027. Date: Thu, 16 Nov 89 22:54:50 PST
  11028. From: shirriff (Ken Shirriff)
  11029. Subject: frexp?
  11030.  
  11031. ldexp(...) defined in gnulib/ds3100.md/ldexp.c calls frexp(...) which
  11032. doesn't seem to be defined anywhere for the ds3100, which means my
  11033. compiles bomb with Undefined: frexp.
  11034. (ldexp and frexp are defined in include/sun3.md for the sun3.)
  11035.  
  11036.  
  11037.  
  11038.  
  11039. 735.
  11040. Date: Fri, 17 Nov 89 08:49:18 PST
  11041. From: brent (Brent Welch)
  11042. Subject: trashed stat files
  11043.  
  11044. I made another pass through all my data files and turned up
  11045. a number of trashed ones.  They all had the first 2 or 3
  11046. Kbytes zeroed out, which points to a fragment bug.  I've
  11047. been saving these in files named 'nuked.08:05:01.Z' (with
  11048. the appropriate date stamp) if their original was 'rawstat.08:05:01.Z'.
  11049. I'm leaving them in their original directory like this
  11050. so I can get an idea of when they get trashed vs. when they
  11051. were created.  My current thoughts are that they get trashed
  11052. shortly after they are generated, probably in the delayed write
  11053. logic.  I suspect that their cache block is being re-used too
  11054. soon, or something.  All of these files are under 3K, and either
  11055. the first 2K are zero, or the whole thing is null.  There is
  11056. some slight-of-hand done when a fragmented file has to be
  11057. written out because it has to be realigned, and I'll be that's
  11058. broken.
  11059.  
  11060.  
  11061.  
  11062. 736.
  11063. Date: Fri, 17 Nov 89 15:32:42 PST
  11064. From: ouster (John Ousterhout)
  11065. Subject: Fred is sending a lot of mail
  11066.  
  11067. All the mail I've received in about the last hour has come out
  11068. with Fred as the sender (same probably as as day or two ago, except
  11069. it isn't going away).
  11070.  
  11071.  
  11072.  
  11073. 737.
  11074. Date: Fri, 17 Nov 89 15:50:19 PST
  11075. From: Fred Douglis <douglis>
  11076. Subject: Re: Fred is sending a lot of mail 
  11077.  
  11078. I think someone must have restarted mint's ipServer by hand (it wasn't
  11079. a low process ID such as would be the case if it were the ipServer
  11080. that started at boot-time).  No sendmail background daemon was around.
  11081. I started it as myself.  Why sendmail persists in putting
  11082.  
  11083. >From douglis
  11084.  
  11085. at the start of each message is beyond me.  I'll restart it as root
  11086. and see how it goes.
  11087.  
  11088.  
  11089.  
  11090.  
  11091. 738.
  11092. Date: Sat, 18 Nov 89 20:52:22 PST
  11093. From: tve (Thorsten von Eicken)
  11094. Subject: /sprite/admin/responsibilities
  11095.  
  11096. not many people have confessed up to now....
  11097.  
  11098.  
  11099.  
  11100. 739.
  11101. Date: Sun, 19 Nov 89 01:11:13 PST
  11102. From: tve (Thorsten von Eicken)
  11103. Subject: need tsort program
  11104.  
  11105. ... can't find it on Sprite ...
  11106.  
  11107.  
  11108.  
  11109. 740.
  11110. Date: Sun, 19 Nov 89 02:12:37 PST
  11111. From: tve (Thorsten von Eicken)
  11112. Subject: pmake problem
  11113.  
  11114. I have problems with a traditional makefiles (for make, not pmake).
  11115. These makefiles (over 200!) are in the octtools distribution which I'm trying
  11116. to compile on sprite.
  11117.  
  11118. The problem is that the makefiles tend to construct very long lines to
  11119. circumvent the problem that every script line runs in it's own shell. For
  11120. example:
  11121. > cleaninstall:
  11122. >    @echo "# %(MAKE) %@"
  11123. >    @for x in `%{MAKEORDER} %{TOOLS}`; do \
  11124. >      echo "cd %$x ; %(MAKE) install clean" ; cd %$x ; \
  11125. >      %(MAKE) %(MFLAGS) %(MAKEVARS) install clean ;\
  11126. >      echo "cd .. # done in %$x (%@)" ; cd .. ; \
  11127. >     done
  11128. What happens is that the very long line (started by "for x..." in this
  11129. example) get truncated *silently* somewhere. Having tried several things,
  11130. I suspect that it's pmake who clips the line. Could you please check and
  11131. fix pmake? To test: "cd /mic/octtools/common/src; make cleaninstall".
  11132. You should get a "/bin/sh: syntax error at line 1: `end of file' unexpected".
  11133.     Thorsten
  11134.  
  11135.  
  11136. 741.
  11137. Date: Mon, 20 Nov 89 11:01:26 PST
  11138. From: pmchen (Peter M. Chen)
  11139. Subject: lost mail
  11140.  
  11141. I recently found out about some mail that did not get delivered to sprite.
  11142. In the past, sprite has updated my /sprite/spool/mail/pmchen file
  11143. incorrectly (mail is dropped in the middle of the file, etc.).  I believe the
  11144. mail was send from touati@arpa (Herve, let me know if I'm wrong on that).
  11145.  
  11146. I think handling mail incorrectly will be strong impetus to use unix, at
  11147. least to send and receive mail.
  11148.  
  11149.  
  11150.  
  11151. 742.
  11152. Date: Mon, 20 Nov 89 13:02:18 PST
  11153. From: mendel (Mendel Rosenblum)
  11154. Subject: Fs_SetAttributes bug
  11155.  
  11156.  
  11157. Doing a RCS "ci" on a symbolic link creates a file which ls thinks is a
  11158. symbolic link.   
  11159.  
  11160. The problem occurs because Fs_SetAttributes doesn't check to see that
  11161. the permission field contains a valid permission value.  When "ci" chmod's the
  11162. new RCS file it somehow ends with the permission bits of 0xffffa16d rather 
  11163. than 0x16d.  This causes Fs_SetAttributes to set the permission field of
  11164. the file descriptor to 0xffffa16d.  When ls does a stat() on this file 
  11165. the combatibility library does:
  11166.  
  11167.     unixAttsPtr->st_mode        = spriteAttsPtr->permissions |
  11168.                                     CvtSpriteToUnixType(spriteAttsPtr->type);
  11169.  
  11170. The extra bits in the spriteAttsPtr->permissions field now are or'ed into the
  11171. type field causes the type field to become S_IFLNK.
  11172.  
  11173. I've fixed the compatiblity library to handle bogus spriteAttsPtr->permissions
  11174. fields. Someone should patch the hole in the Fs_SetAttributes syscall.
  11175.  
  11176.  
  11177.  
  11178. 743.
  11179. Date: Mon, 20 Nov 89 13:34:53 PST
  11180. From: mendel (Mendel Rosenblum)
  11181. Subject: Files not being dumped.
  11182.  
  11183. If you create a directory structure such that the full pathnames of the files
  11184. are more than 100 characters then the files will not be dumped by the 
  11185. Sprite dump program. The following files were not dumped by the last 
  11186. dump:
  11187.  
  11188. /mic/octtools/common/lib/technology/scmos/msu/s150/mag/cs250_pads/SPUR_PADS/OCT_PADS/hgp/physical/contents;
  11189.  
  11190. and 
  11191.  
  11192. /mic/octtools/common/lib/technology/scmos/msu/s150/mag/cs250_pads/SPUR_PADS/OCT_PADS/hgp/physical/interface;
  11193.  
  11194.  
  11195.  
  11196. 744.
  11197. Date: Mon, 20 Nov 89 13:42:32 PST
  11198. From: Fred Douglis <douglis>
  11199. Subject: another dump bug report
  11200.  
  11201. the error messages mendel saw from the dump program were not mailed to
  11202. me when I got the following message:
  11203.  
  11204. >>>>> On Mon, 20 Nov 89 13:32:27 PST, root@sprite.Berkeley.EDU (The Sprite God) said:
  11205.  
  11206. root> To: douglis
  11207. root> Dump completed successfully.
  11208.  
  11209. root> Level 1 dump on Mon Nov 20 11:46:26 1989
  11210. root>     /user1
  11211. root>     /user2
  11212. root>     /sprite
  11213. root>     /sprite/src
  11214. root>     /sprite/src/kernel
  11215. root>     /mic
  11216. root>     /b
  11217. root>     /c
  11218. root>     /
  11219.  
  11220. which means we could be hitting errors that Bob (or whoever is doing
  11221. the dumps) never finds out about.
  11222.  
  11223. Also, the dumps are not getting run automatically from murder's
  11224. crontab -- I've had to do them by hand.  And, the tape that's marked
  11225. for yesterday's dump (11/19) ran okay at first, but when the dump
  11226. program exited after the rlogin connection that had started it died, i
  11227. got file mark errors on that tape and had to move on to the next tape.
  11228.  
  11229.  
  11230.  
  11231.  
  11232. 745.
  11233. Date: Mon, 20 Nov 89 16:49:43 PST
  11234. From: Fred Douglis <douglis>
  11235. Subject: ds3100 X server / keyboard problem
  11236.  
  11237. after I tear down X, when typing at the console, I get
  11238. a lot of bouncing -- many characters are echoed (and input)
  11239. twice, especially if the shift key is held.  
  11240.  
  11241.  
  11242.  
  11243.  
  11244. 746.
  11245. Date: Mon, 20 Nov 89 21:09:47 PST
  11246. From: brent (Brent Welch)
  11247. Subject: awk loop on sun4
  11248.  
  11249. Awk went into an infinite loop on anise.
  11250. The same thing works ok on a sun3.
  11251. To repeat:
  11252. cd ~brent/postrawstat/Results.cache
  11253. awk -f AwkCacheClt mustard.sun3.jul-nov.var-
  11254.  
  11255.  
  11256.  
  11257.  
  11258. 747.
  11259. Date: Tue, 21 Nov 89 03:14:58 PST
  11260. From: eklee (Edward K. Lee)
  11261. Subject: files slaughtered
  11262.  
  11263. Today, many of my files disappeared from sprite.  Most of the
  11264. missing files seem to be binaries but I'm not sure of that
  11265. yet.
  11266. The director ~eklee/cmds.md disappeared altogether.  This
  11267. is the second time that this particular directory has
  11268. disappeared.
  11269.  
  11270. Bob, I would appreciate it greatly if you could restore
  11271.  ~eklee/cmds.md as soon as possible (I need it to start up
  11272. X).
  11273.  
  11274. thanks,
  11275.  
  11276.  
  11277.  
  11278. 748.
  11279. Date: Tue, 21 Nov 89 10:02:27 PST
  11280. From: Fred Douglis <douglis>
  11281. Subject: *.fsc files
  11282.  
  11283. The location of these files keeps changing, so they're hard to find.
  11284. For example, there are *.fsc files dated July in /mintA/boot, and it
  11285. wasn't until Mendel suggested that I look in /hosts/mint that I found
  11286. the current ones.  The thing is, they print "checking /dev/..."
  11287. without any indication of the date, so correlating error messages with
  11288. boottimes is hard.  
  11289.  
  11290. By the way... Ed has lots of files in /sprite/lost+found, but nothing
  11291. all that recent, and mint rebooted a few days ago -- not in the past
  11292. day.  I'm still interested in hearing when the last time is that Ed's
  11293. sure the directory and files did exist okay.  
  11294.  
  11295.  
  11296.  
  11297.  
  11298. 749.
  11299. Date: Wed, 22 Nov 89 10:17:50 PST
  11300. From: mendel (Mendel Rosenblum)
  11301. Subject: sun4 register trash bug: low priority
  11302.  
  11303. The sun4 window underflow handler trashes some user accessible registers it
  11304. probably should not.  For example, the following routine returns 1 on SunOS
  11305. and some value like 503315628 on Sprite.
  11306.  
  11307.     .globl _foo
  11308.     _foo:    
  11309.         save %sp, -96, %sp
  11310.         call     CallDeepEnoughtToFlushWindows
  11311.         nop
  11312.         mov   1,%o1
  11313.         ret
  11314.         restore    %o1,%g0,%o0
  11315.  
  11316. The problem occurs when the restore causes a window underflow. The underflow
  11317. handler trashes the %o1 register which is used when the restore is reissued.
  11318. This is not a high priority problem because the C compiler never generates
  11319. code using restore in this way. The library routine longjmp() does use
  11320. restore in this way and so longjmp(jmp_buf,1) causes the setjmp() to return
  11321. with 503315628 rather than 1. If this becomes a problem we can probably make
  11322. long jump a few instructions longer and get around the problem.
  11323.  
  11324.  
  11325.  
  11326. 750.
  11327. Date: Wed, 22 Nov 89 10:20:11 PST
  11328. From: Fred Douglis <douglis>
  11329. Subject: dumps going from bad to worse 
  11330.  
  11331. I changed crontab to pipe the output of dailydump into "Mail douglis"
  11332. and got the following message at the time it was run.  I think the
  11333. problem may be with cron rather than dumps; murder's ipserver died as
  11334. i tried to investigate further so I can't say for sure yet.  But
  11335. here's the note: 
  11336.  
  11337. ------- Forwarded Message
  11338.  
  11339. Date:    Wed, 22 Nov 89 02:00:07 -0800 
  11340. From:    root@sprite.Berkeley.EDU (The Sprite God)
  11341. To:      douglis@sprite.Berkeley.EDU
  11342.  
  11343.  
  11344. lost+found
  11345. 
  11346. spriteCory
  11347. .Xdefaults
  11348.  
  11349.  
  11350.  
  11351.  
  11352. ------- End of Forwarded Message
  11353.  
  11354.  
  11355. At the same time that the ipServer died, the dumps started up (from
  11356. crontab again, as I was debugging it) -- but died a moment later with
  11357. a "catastrophic formatting error" from the exabyte.  After popping the
  11358. tape out and putting it back in (to make sure the tape had rewound), I
  11359. couldn't get a green light from the exabyte.   We finally power-cycled
  11360. the exabyte and it came back.  
  11361.  
  11362.  
  11363.  
  11364.  
  11365. 751.
  11366. Date: Wed, 22 Nov 89 14:21:34 PST
  11367. From: Fred Douglis <douglis>
  11368. Subject: dist file prot bug: migInfo
  11369.  
  11370. Mike had trouble getting migration to kick in down at WRL because
  11371. /sprite/admin/migInfo had the wrong permissions.  Someone  complained
  11372. that our copy up here temporarily had the wrong permissions too.  In
  11373. case the distribution isn't already set up to create this file with
  11374. mode 0666, I figured I'd report this.
  11375.  
  11376.  
  11377.  
  11378.  
  11379. 752.
  11380. Date: Wed, 22 Nov 89 16:46:17 PST
  11381. From: shirriff (Ken Shirriff)
  11382. Subject: Tx bug
  11383.  
  11384. I grep'd through a file that wasn't ascii and my tx window went into
  11385. an infinite loop.  I couldn't figure out what was wrong before dbx
  11386. decided to complain about Illegal Instructions, so this will probably
  11387. have to be filed away until it reoccurs.  The problem seems to be in
  11388. Sx_Notify line 291, where it is trying to figure out the notifier
  11389. size by calling EndOfLine to take chunks of the line.  EndOfLine
  11390. is stepping through the string, but somehow Sx_Notify keeps starting
  11391. over and processing the same string.
  11392.  
  11393.  
  11394.  
  11395. 753.
  11396. Date: Fri, 24 Nov 89 15:19:10 PST
  11397. From: tve (Thorsten von Eicken)
  11398. Subject: mailbox corrupted
  11399.  
  11400. This time it's my mailbox which got affected. Fred's message
  11401. about RCS'ed systemfiles landed in the middle of one of the
  11402. messages I left in my mailbox.
  11403.  
  11404.  
  11405.  
  11406. 754.
  11407. Date: Sat, 25 Nov 89 11:12:56 PST
  11408. From: pmchen (Peter M. Chen)
  11409. Subject: mint is somewhat hosed
  11410.  
  11411. Getting lots of 
  11412. <reopen> 11/25/89 11:11:51 mint (32) RPC timed-out
  11413. 11/25/89 11:11:51 mint (32) Recovery failedrpc timeout
  11414.  
  11415. Am unable to get to command user commands on clients.
  11416.  
  11417.  
  11418.  
  11419. 755.
  11420. Date: Sat, 25 Nov 89 11:43:17 PST
  11421. From: shirriff (Ken Shirriff)
  11422. Subject: Mail got trashed
  11423.  
  11424. I got two mail messages merged together into one:
  11425.  
  11426. Message 118:
  11427. >From netlibd@surfer.EPM.ORNL.GOV Fri Nov 24 23:50:33 1989
  11428. Date: Sat, 25 Nov 89 02:50:10 -0500
  11429. From: netlibd@surfer.EPM.ORNL.GOV (Netlib)
  11430. To: shirriff@sprite.Berkeley.EDU
  11431. Subject: send linpackc from bench
  11432.  
  11433. Sorry, no such library is available.  Recheck the general index.
  11434. Here are some example requests, in case syntax is the problem:
  11435.  
  11436.           send index
  11437.           send index for eispack
  11438.           send rg from eispack
  11439.           who is eric grosse         
  11440.  
  11441. Received: by sprite.Berkeley.EDU (5.59/1.29)
  11442.     id AA335964; Sat, 25 Nov 89 11:12:56 PST
  11443. Date: Sat, 25 Nov 89 11:12:56 PST
  11444. From: pmchen (Peter M. Chen)
  11445. Message-Id: <8911251912.AA335964@sprite.Berkeley.EDU>
  11446. To: bugs
  11447. Subject: mint is somewhat hosed
  11448.  
  11449. Getting lots of 
  11450. <reopen> 11/25/89 11:11:51 mint (32) RPC timed-out
  11451. 11/25/89 11:11:51 mint (32) Recovery failedrpc timeout
  11452.  
  11453. Am unable to get to command user commands on clients.
  11454.  
  11455.  
  11456.  
  11457. 756.
  11458. Date: Sun, 26 Nov 89 15:10:05 PST
  11459. From: ouster (John Ousterhout)
  11460. Subject: Allspice reboot
  11461.  
  11462. I rebooted Allspice this afternoon.  It was refusing to talk to Mace,
  11463. even after I L1-N'ed it to reset its network interface and pinged Mace
  11464. from Allspice.  Allspice did seem to talk to just about everyone else,
  11465. and strangely enough the act of preparing it to reboot managed to clear
  11466. up the condition with Mace (I went back to my office halfway through
  11467. the Allspice boot cycle and discovered that Mace was no longer hanging).
  11468.  
  11469.  
  11470.  
  11471.  
  11472. 757.
  11473. Date: Sun, 26 Nov 89 16:15:22 PST
  11474. From: Fred Douglis <douglis>
  11475. Subject: ds3100 duplicate memory free panic
  11476.  
  11477. kvetching died sometime this morning with a message about 
  11478. freeing a block that was already free, but i was unable to 
  11479. attach to it to debug the corpse.  this is just for the record, to
  11480. see if it's a fluke or the start of a trend.
  11481.  
  11482.  
  11483.  
  11484.  
  11485. 758.
  11486. Date: Mon, 27 Nov 89 10:33:11 PST
  11487. From: mendel (Mendel Rosenblum)
  11488. Subject: missing man pages from dump and restore
  11489.  
  11490. >From /sprite/admin/howto/restoreAFile:
  11491.  
  11492. > 6.  For more information see the manual entries for `dump' and `restore'.
  11493.  
  11494. murder% man restore
  11495. No manual entry for "restore".
  11496. murder% man dump
  11497. No manual entry for "dump".
  11498.  
  11499.  
  11500.  
  11501.  
  11502. 759.
  11503. Date: Mon, 27 Nov 89 13:17:28 PST
  11504. From: Fred Douglis <douglis>
  11505. Subject: inetd/login problem explained
  11506.  
  11507. george taylor was told to run "/hosts/hijack/restartservers", which is
  11508. a setuid shell script that starts up various daemons.  that explains
  11509. why the real userid was gibson (taylor didn't exist until just now)
  11510. and why i never had any trouble suing and then restarting daemons.
  11511. making it a setuid shell script also means that when sendmail is
  11512. restarted it will probably think it was run by a mere mortal and would
  11513. post mail is if it were "From <user>" instead of the real person
  11514. sending the mail.   
  11515.  
  11516. In other words, mere mortals shouldn't have to restart servers
  11517. themselves, but if they have to, it must be done with the real userID
  11518. set to root.
  11519.  
  11520.  
  11521.  
  11522. 760.
  11523. Date: Wed, 29 Nov 89 11:36:48 PST
  11524. From: brent (Brent Welch)
  11525. Subject: cross-loading
  11526.  
  11527. Earlier I reported:
  11528.     ld: Bad machine type, not M_SPARC, for /usr/lib/libnet.a(Net_EtherAddrTo)
  11529.     when trying to make a sun4 kernel on sloth.
  11530.  
  11531. This is because /usr/lib/libnet.a is a symbolic link to
  11532. /sprite/lib/%MACHINE.md/libnet.a.  This means that somehow
  11533. only libc is special cased to work for cross-compiliation
  11534. (cross-loading, actually.)  Do we know this?  Do we like it?
  11535.  
  11536.  
  11537.  
  11538. 761.
  11539. Date: Thu, 30 Nov 89 09:30:49 PST
  11540. From: culler (David Culler)
  11541. Subject: Dare I say, Ere SOSP
  11542.  
  11543. I've encountered a couple of strange things on Sprite recently.
  11544.  
  11545. (1) I sometimes lose typeout.  It just stops echoing characters, although
  11546. output from programs is displayed.  This happens after I logout.  It also
  11547. seems to happen after running talk.  In the second case, exiting the tx 
  11548. window and firing up a new one fixed it.  In the other situation I had
  11549. to reboot.
  11550.  
  11551. (2) When an 'rsh' command is performed (I do this to print from Fennel)
  11552. I get a message: "ioctl: Operation not supported on socket".  The remote
  11553. command does seem to take place, however.
  11554.  
  11555. (3) The above situation arises because I can no longer get to lw533
  11556. from sprite.  For awhile I could.  Now lpq says, "Warning lw533 is down: 
  11557. sending to shallot".  Unfortunately, nothing ever gets to shallot.
  11558.  
  11559. (4) If I run dvi2ps on my machine and try to print the ps file,
  11560. it looks rather impressionistic.  Lots of interesting boxes, but few
  11561. characters.  Filtering the same dvi file through dvi2ps on fennel works
  11562. fine.
  11563.  
  11564. btw. Emacs still gets upset in trying to write files on Unix hosts.
  11565.  
  11566.  
  11567.  
  11568. 762.
  11569. Date: Thu, 30 Nov 89 10:36:35 PST
  11570. From: ouster (John Ousterhout)
  11571. Subject: fsattach man page
  11572.  
  11573. This man page is a bit out-of-date.  For example, it refers to
  11574. "/local" in a few places.
  11575.  
  11576.  
  11577.  
  11578. 763.
  11579. Date: Thu, 30 Nov 89 13:51:55 PST
  11580. From: mgbaker (Mary Gray Baker)
  11581. Subject: cc1.68k 
  11582.  
  11583. cc1.68k goes into the debugger when run on a sparcstation trying to compile
  11584. vmBoot.c for the sun3.
  11585.  
  11586.  
  11587.  
  11588. 764.
  11589. Date: Thu, 30 Nov 89 19:36:51 PST
  11590. From: mgbaker (Mary Gray Baker)
  11591. Subject: C library hash routine quite broken
  11592.  
  11593. For Hash_CreateEntry, the test to see if an entry existed already was
  11594. backwards.  It should have been "if (!bcmp(...))" but was instead
  11595. "if (bcmp(...))".  
  11596.  
  11597. What uses the C library hash routines?  I know the kernel doesn't.
  11598.  
  11599.  
  11600.  
  11601. 765.
  11602. Date: Thu, 30 Nov 89 19:54:25 PST
  11603. From: mendel (Mendel Rosenblum)
  11604. Subject: Re: gdb on sun3
  11605.  
  11606. > gdb reports the stack as:
  11607.  
  11608. > #0  0xe380 in Sig_Send ()
  11609. > #1  0x1b in ?? ()
  11610. > (gdb)
  11611.  
  11612. > and I can't even see the stack frame of the main() routine.
  11613.  
  11614. Try typing "si" and things will look better.  Gdb is having trouble 
  11615. backtracing the stack after the Sig_Send syscall. The si causes it
  11616. to execute the "addql #4,sp" instruction after the "trap #1" and put
  11617. the stack in a format gdb can backtrace. 
  11618.  
  11619.  
  11620.  
  11621.  
  11622. 766.
  11623. Date: Fri, 01 Dec 89 11:27:39 PST
  11624. From: Fred Douglis <douglis>
  11625. Subject: xhost
  11626.  
  11627. % ls -l /X11R3/cmds.ds3100/xhost
  11628. -rwxrwxr-x  1 stolcke        44 Nov 30 12:15 /X11R3/cmds.ds3100/xhost*
  11629. % cat /X11R3/cmds.ds3100/xhost
  11630. echo Access control buggy--no action taken.
  11631.  
  11632. but if i try to run an x application on another host, i get an error,
  11633. perhaps because that host (treason) isn't in /etc/X0.hosts.
  11634.  
  11635.  
  11636.  
  11637. 767.
  11638. Date: Sat, 2 Dec 89 13:30:28 PST
  11639. From: shirriff (Ken Shirriff)
  11640. Subject: Makefile for bib
  11641.  
  11642. If I do a "make install" on bib, it puts the new bib in
  11643. /users/shirriff/cmds.ds3100/bib instead of /sprite/cmds.ds3100/bib.
  11644. Is there any reason for this?  I moved the previous bib to
  11645. /sprite/cmds.3100/bib.old and installed the new one myself, since the
  11646. old installed bib hangs if it can't find a reference.
  11647.  
  11648.  
  11649.  
  11650.  
  11651. 768.
  11652. Date: Sat, 2 Dec 89 17:46:26 PST
  11653. From: mendel (Mendel Rosenblum)
  11654. Subject: sparcStation out-of-PMEGs bug
  11655.  
  11656. Jaywalk hung on me when I ran a program that generated a large file. The 
  11657. reason it hung was it allocated almost all its PMEGS to the kernel and
  11658. file system cache. This is the same problem we saw on allspice.  Some time
  11659. we need to patch the VM/filesystem not to wire down the PMEGs mapping the
  11660. file cache. Until then we should limit the size of the file system cache
  11661. on the sparc stations. 
  11662.  
  11663.  
  11664.  
  11665.  
  11666. 769.
  11667. Date: Wed, 6 Dec 89 19:08:17 PST
  11668. From: mendel (Mendel Rosenblum)
  11669. Subject: sun3, sun4 allow *(char *)(-1)
  11670.  
  11671. Both the sun3 and sun4 allow a user program to read a byte from the address
  11672. 0xffffffff without an error.   This is not true of the sun4c. 
  11673.  
  11674.  
  11675.  
  11676.  
  11677. 770.
  11678. Date: Thu, 7 Dec 89 00:56:05 PST
  11679. From: tve (Thorsten von Eicken)
  11680. Subject: HELP mail seems flaky
  11681.  
  11682. I know John Wawrzynek lost mail (he told me). I have a curiously empty
  11683. mailbox, but I don't know whether I actually lost anything. Mint had
  11684. tons of sendmail error messages on its console when we tried fixing it
  11685. this afternoon from the out-of-processes state. Could someone please
  11686. have a careful & thorough look into it? Is there any way to recover, or
  11687. at least to get a list of the senders of lost messages? I do think this
  11688. is important, some people are getting upset.
  11689.  
  11690.  
  11691.  
  11692.  
  11693. 771.
  11694. Date: Thu, 7 Dec 89 12:51:15 PST
  11695. From: pmchen (Peter M. Chen)
  11696. Subject: hard to send mail from arpa to sprite
  11697.  
  11698. Herve Touati has consistently had problems in sending mail from
  11699. ucbarpa to sprite.  So far mail has been: 1) appended into the middle
  11700. of my /sprite/spool/mail/pmchen file, 2) dropped totally, and 3) deferred:
  11701. bad file number.  He resent it:
  11702.  
  11703.  
  11704.  
  11705.  
  11706. 772.
  11707. Date: Thu, 7 Dec 89 16:17:29 PST
  11708. From: shirriff (Ken Shirriff)
  11709. Subject: gremlin bug
  11710.  
  11711. If you start up gremlin "gremlin foo.grn" (where foo.grn is a gremlin file)
  11712. and then hit undo inside gremlin, gremlin seg. faults on a sun3.
  11713.  
  11714.  
  11715.  
  11716. 773.
  11717. Date: Thu, 07 Dec 89 20:47:20 PST
  11718. From: Fred Douglis <douglis>
  11719. Subject: more sendmail problems
  11720.  
  11721. mint's sendmail existed but was refusing connections since sometime
  11722. around 5 or 6 today.  mint's ipserver pid implies that perhaps it was
  11723. restarted by hand.  anyone know anything about this?  anyway, i
  11724. started a new sendmail.  i can't debug the old sendmail since there's
  11725. no unstripped binary -- i'll try to install a new one.
  11726.  
  11727.  
  11728.  
  11729. 774.
  11730. Date: Sat, 9 Dec 89 01:21:00 PST
  11731. From: elm (ethan miller)
  11732. Subject: problems with variables in Mail
  11733.  
  11734. There are a bunch of variables, both set in .mailrc and environment,
  11735. that seem not to show up in Mail.  Among these are tabstr, prompt,
  11736. and MBOX.  The last, especially, creates a bit of a problem.  This
  11737. is occuring on a ds3100.  No crashes, just a lack of some variables
  11738. taking effect (they show up as set, but don't do anything).  Does
  11739. anyone know why this might be?
  11740.  
  11741.  
  11742.  
  11743.  
  11744. 775.
  11745. Date: Sun, 10 Dec 89 08:25:35 PST
  11746. From: tve (Thorsten von Eicken)
  11747. Subject: ntalkd doesn't link on sun4s
  11748.  
  11749. --- sun4.md/ntalkd ---
  11750. rm -f sun4.md/ntalkd
  11751. cc  -g -O -msun4 -Dsprite -Dsun4  -I. -Isun4.md -o sun4.md/ntalkd  sun4.md/announce.o sun4.md/print.o sun4.md/process.o sun4.md/table.o sun4.md/talkd.o
  11752. process.c:234: Undefined symbol _Ulog_GetAllLogins referenced from text segment
  11753.  
  11754.  
  11755.  
  11756. 776.
  11757. Date: Sun, 10 Dec 89 12:31:08 PST
  11758. From: mendel (Mendel Rosenblum)
  11759. Subject: Processes in NEW state on spacstations
  11760.  
  11761. Sparcstations seem to be collecting processes with a state of NEW.  For 
  11762. example from jaywalk:
  11763.  
  11764. jaywalk% ps -a | grep NEW
  11765. 71223 NEW     0:00 sh -c /c/stats/RAW
  11766. a1222 NEW     0:00 sh -c /c/stats/RAW
  11767. 11225 NEW     0:00 mkdir jaywalk/10Dec 
  11768. 41224 NEW     0:00 test ! -d jaywalk/10Dec 
  11769. 2122d NEW     0:00 test 5 != 0 
  11770.  
  11771.  
  11772.  
  11773.  
  11774. 777.
  11775. Date: Sun, 10 Dec 89 19:02:06 PST
  11776. From: mendel (Mendel Rosenblum)
  11777. Subject: sparcstation watchdog reset
  11778.  
  11779. When I try to attach an Xsprite that was in the debugger on jaywalk the machine
  11780. got a watchdog reset.  It looks like there is a bug in the code that
  11781. handles window underflow traps with bad stack pointers.  It appears
  11782. to do the wrong thing when Proc_SuspendProcess returns.
  11783.  
  11784.  
  11785.  
  11786.  
  11787. 778.
  11788. Date: Sun, 10 Dec 89 21:32:31 PST
  11789. From: mgbaker (Mary Gray Baker)
  11790. Subject: Re: sparcstation watchdog reset
  11791.  
  11792. The code in the window underflow stuff isn't supposed to handle anything
  11793. further if the process has a bad stack pointer.  That's why I was originally
  11794. calling ProcExitInt on those processes, to make sure nothing returned into the
  11795. window underflow handler at that point.  I switched to Proc_SuspendProcess so
  11796. that we might be able to debug processes with bad stack pointers due to a
  11797. suggestion from an optimist that Proc_SuspendProcess doesn't return.  It causes
  11798. a context switch, but I guess I'm confused about what happens when attaching to
  11799. a process on the debug list.  If it causes it to return from
  11800. Proc_SuspendProcess into the underflow handler, then all hell will break loose
  11801. and I will indeed need to do something more complicated than just calling
  11802. Proc_SuspendProcess.  I have 2 ideas of what to do, and I'll work on it.
  11803.  
  11804.  
  11805.  
  11806.  
  11807.  
  11808. 779.
  11809. Date: Mon, 11 Dec 89 16:49:49 PST
  11810. From: pmchen (Peter M. Chen)
  11811. Subject: lpr queuing again
  11812.  
  11813. When I issue a printer job after not printing anything for a while, it
  11814. gets stuck in the "sending to coriander" stage.  To fix it, I can
  11815. lprm the job and resend it, which usually works (sometimes I need to
  11816. do it multiple times).  This happens consistently.
  11817.  
  11818.  
  11819.  
  11820. 780.
  11821. Date: Tue, 12 Dec 89 12:22:05 PST
  11822. From: douglis (Fred Douglis)
  11823. Subject: restore failed!
  11824.  
  11825. it finally reached /b after some intolerable period of time, and
  11826. immediately went into the debugger -- perhaps because it tried to
  11827. restore lost+found, which existed?  there was no error message, just
  11828. a statement that it was in the debugger.
  11829.  
  11830.  
  11831.  
  11832.  
  11833. 781.
  11834. Date: Tue, 12 Dec 89 12:52:14 PST
  11835. From: mendel (Mendel Rosenblum)
  11836. Subject: restore calls abort() during reload
  11837.  
  11838. The code in tar for the "-n" flag is not documented in man page, 
  11839. not listed in the "tar -help" list, and doesn't appear to work correctly.
  11840. It seems to causes tar to delete all the
  11841. files in a directory that are not on the dump tape. (Is this a good idea?)
  11842. After doing the deletes it calls the routine usrrec() to skip over
  11843. the tar records for the directory.  This manages to mess up and call abort().  
  11844.  
  11845.  
  11846.  
  11847.  
  11848. 782.
  11849. Date: Wed, 13 Dec 89 08:12:07 PST
  11850. From: brent (Brent Welch)
  11851. Subject: Long I/O waits
  11852.  
  11853. Peter sent me the following two interesting messages about
  11854. I/O behavior on Sprite.
  11855.  
  11856.     Date: Tue, 12 Dec 89 13:58:27 PST
  11857.     From: pmchen (Peter M. Chen)
  11858.     To: brent
  11859.     Subject: diff hangs
  11860.     Status: RO
  11861.  
  11862.     I was doing a diff of some VERY LARGE files (80 MB) and diff hung
  11863.     (didn't respond to ctrl-Z or ctrl-C).  I also can't seem to kill the
  11864.     process (it's in the READY state).  This has happened before.  The
  11865.     files were /scratch/pmchen/db2.trace.11.20 and /scratch/db2.trace.11.20.
  11866.     Any ideas?
  11867.  
  11868.     Pete
  11869.  
  11870.     Date: Tue, 12 Dec 89 14:52:40 PST
  11871.     From: pmchen (Peter M. Chen)
  11872.     To: brent
  11873.     Subject: diff hanging
  11874.  
  11875.     The problem is repeatable.  However, the process doesn't hang indefinitely,
  11876.     just about 5 minutes after which it returns.
  11877.  
  11878.     Pete
  11879.  
  11880. It appears as if the diff process got on the end of a long I/O queue.
  11881. Perhaps some other activity at the file server clogged up the disk.
  11882.  
  11883.  
  11884.  
  11885. 783.
  11886. Date: Wed, 13 Dec 89 16:58:26 PST
  11887. From: Fred Douglis <douglis>
  11888. Subject: can't mount /scratch2
  11889.  
  11890. I don't know how to mount /scratch2.  It didn't come up automatically
  11891. even though /hosts/anise/mount exists.  running fsattach complained it
  11892. didn't know where "mount" was.  running it with an option to specify
  11893. /hosts/anise/mount caused it to check the disk fine but complain it
  11894. didn't know anything about /bootTmp.  Seems like something funny is
  11895. going on regarding anise not being set up with /bootTmp the way other
  11896. machines are.  I didn't see anything in the fsattach man page to
  11897. explain it.
  11898.  
  11899.  
  11900.  
  11901. 784.
  11902. Date: Wed, 13 Dec 89 22:37:03 PST
  11903. From: tve (Thorsten von Eicken)
  11904. Subject: problem withmig on sun4s
  11905.  
  11906. [crackle pmake] mig
  11907. Error execing program: unknown error (0)
  11908.  
  11909. Also, pmake doesn't actually seem to migrate anything?
  11910.  
  11911.  
  11912.  
  11913.  
  11914.  
  11915. 785.
  11916. Date: Thu, 14 Dec 89 11:49:58 PST
  11917. From: Fred Douglis <douglis>
  11918. Subject: /usr/lib
  11919.  
  11920. why does ld look in /usr/lib instead of /sprite/lib/%TM.md?  this came
  11921. up in an earlier bug report about /usr/lib being a link and still is a
  11922. problem. 
  11923.  
  11924.  
  11925.  
  11926.  
  11927. 786.
  11928. Date: Thu, 14 Dec 89 12:46:20 PST
  11929. From: Fred Douglis <douglis>
  11930. Subject: mkmf incompatibilities control needed
  11931.  
  11932. we need a way for Makefiles to check some sort of version number in
  11933. the system makefiles they include.  thorsten's problem, i believe, was
  11934. due to Makefile not defining TM while script.mk expected it to be
  11935. defined.  perhaps this should be a spring-cleaning item?
  11936.  
  11937.  
  11938.  
  11939.  
  11940. 787.
  11941. Date: Thu, 14 Dec 89 12:48:17 PST
  11942. From: brent (Brent Welch)
  11943. Subject: double insert cache bug found
  11944.  
  11945. I've finally found something wrong with the cache.  Ironically it
  11946. was my mousetrap routine that uncovered it, but not the way it
  11947. was supposed to.  The original mousetrap is in the blockWrite
  11948. routine.  If looks through the block index map to make sure
  11949. the block seems like it belonged where it was being written.
  11950. This causes extra uses of the indirect blocks, and this
  11951. in turn exposed a "double insert" bug in Fscache_FetchBlock.
  11952.  
  11953. If a cache block isn't found (say an indirect block), then Fscache_FetchBlock
  11954. takes a block off the LRU list.  This too might fail if the cache
  11955. is full of dirty or in-use blocks.  In this case Fscache_FetchBlock waits
  11956. for room in the cache.  The bug was that Fscache_FetchBlock didn't look in
  11957. the hash table after it waited. (It only re-hashed if it first found
  11958. the block but it was locked).  It was possible for another process
  11959. to load the indirect block into the cache, and then to have the original
  11960. process wake up, take a block of the LRU list, and insert the
  11961. block into the hash table again.  Voila double insertion, and the previous
  11962. incarnation of the block was lost.  In the case of the indirect
  11963. block the machine crashes when the second instance of the block
  11964. gets deleted because there is no longer an entry in the hash table;
  11965. it was removed when the first instance of the block was removed.
  11966.  
  11967. This bug might also explain the fragment bug because the block cache
  11968. is used when growing a fragment.  However, I am not positive of this.
  11969. UpgradeFragment fetches the block containing the previous incarnation
  11970. of the fragment.  It then changes the disk address of the fragment
  11971. and unlocks the cache block.  If a double insert happened then
  11972. the first incarnation of the fragment might either get lost,
  11973. or it might linger around and do damage (not sure about this).
  11974. Or, perhaps some other block gets doubly inserted and wreaks havoc.
  11975. At any rate, the origninal
  11976. mousetrap is still in, so if this doesn't fix it I may catch
  11977. a block being written out to a place it doesn't belong.
  11978.  
  11979.  
  11980.  
  11981.  
  11982. 788.
  11983. Date: Thu, 14 Dec 89 17:33:29 PST
  11984. From: tve (Thorsten von Eicken)
  11985. Subject: is realloc man page correct?
  11986.  
  11987. The man page says that realloc is compatible with old versions where
  11988. one is allowed to realloc a block one has freed since the last call
  11989. to malloc.  I'm porting a program which uses that behaviour (sic!)
  11990. and I get the message "Mem_Size: storage block is free". I also
  11991. had a look into /sprite/src/lib/c/stdlib/Mem_Size.c and I don't see
  11992. support for the compatibility.
  11993. I think non-compatibility is this case to be ok, but please fix the
  11994. man page is that case. Or did I miss something?
  11995.     TvE
  11996. (sorry, I don't have an easy example for the bug)
  11997.  
  11998.  
  11999.  
  12000.  
  12001. 789.
  12002. Date: Thu, 14 Dec 89 18:47:33 PST
  12003. From: tve (Thorsten von Eicken)
  12004. Subject: profiling doesn't work on ds3100
  12005.  
  12006. If I compile with -pg, I get an error at the final load:
  12007. Can't open: /usr/lib/mcrt0.o1.31 (No such file or directory)
  12008. Is that fixable? Or am I doing something wrong?
  12009.  
  12010.  
  12011.  
  12012.  
  12013. 790.
  12014. Date: Fri, 15 Dec 89 08:29:27 PST
  12015. From: mendel (Mendel Rosenblum)
  12016. Subject: New sun4c kernel still has the NEW process problem
  12017.  
  12018.  
  12019. jaywalk% sysstat -v
  12020. jaywalk              SPRITE VERSION 1.046 (sun4c) (14 Dec 89 17:30:19)
  12021. jaywalk% ps -a | grep NEW
  12022. 11231 NEW  -33901099:-50 
  12023. 11230 NEW  28917113:11 
  12024. e1220 NEW     0:00 /users/mgbaker/cmds/screenscript -f ...
  12025. d1226 NEW     0:00 sort /tmp/temp725536 
  12026. 2121d NEW     0:00 xgone 
  12027. b122c NEW     0:00 la 
  12028.  120b NEW     0:00 xgone 
  12029. a1212 NEW     0:00 la 
  12030. f121e NEW     0:00 sh -c /users/mgbaker/cmds/screenscript
  12031. a1227 NEW     0:00 sh -c echo SUMMARY `hostname` `date` 
  12032. 9120e NEW     0:00 sed -f /users/mgbaker/cmds/screenscript.sed 
  12033. c1221 NEW     0:00 sed -f /users/mgbaker/cmds/screenscript.sed 
  12034. 71238 WAIT    0:00 grep NEW 
  12035. 11232 NEW     0:00 
  12036. jaywalk% 
  12037.  
  12038.  
  12039.  
  12040.  
  12041. 791.
  12042. Date: Fri, 15 Dec 89 08:39:35 PST
  12043. From: Fred Douglis <douglis>
  12044. Subject: Re: New sun4c kernel still has the NEW process problem 
  12045.  
  12046. that problem won't go away until all sun4cs are running the new sun4c
  12047. kernel.  in fact, it may not go away until the sun4c mach module
  12048. is changed to un-hold the migrate signal the way the other kernels do -- 
  12049. right now, the change handles exec-time migration but not other migration.
  12050. since almost all migration is at exec time or is of processes that migrated
  12051. earlier at exec time, it shouldn't be a problem, but it still has to be
  12052. fixed.  i talked to mary about this briefly -- i hesitated to put the
  12053. change into the sun4c mach module because the sun4/4c trap code
  12054. is radically different from the others.
  12055.  
  12056.  
  12057.  
  12058.  
  12059. 792.
  12060. Date: Fri, 15 Dec 89 15:30:32 PST
  12061. From: Fred Douglis <douglis>
  12062. Subject: new ds3100 X server hangs with certain Xdefaults
  12063.  
  12064. with the following at the end of my .Xdefaults (loaded via xrdb),
  12065. I can't talk to the server.  If I comment it out I can start X
  12066. windows up just fine.
  12067.  
  12068. *Text.Translations:             
  12069.         Ctrl<Key>W:             delete-previous-word()\n
  12070.         Ctrl<Key>U:             beginning-of-line()
  12071.                                 kill-to-end-of-line()\n
  12072.         Meta<Key>k:             kill-selection()\n
  12073.  
  12074.  
  12075.  
  12076.  
  12077. 793.
  12078. Date: Fri, 15 Dec 89 17:26:58 PST
  12079. From: Fred Douglis <douglis>
  12080. Subject: sendmail/naming problem
  12081.  
  12082. someone resent a note to me that bounced, with mint constantly trying
  12083. to forward to itself:
  12084.  
  12085.        ----- Transcript of session follows -----
  12086.     >>> DATA
  12087.     <<< 554 sendall: too many hops (17 max)
  12088.     554 <douglis@@sprite.Berkeley.EDU>... Service unavailable: invalid argument
  12089.  
  12090.        ----- Unsent message follows -----
  12091.     Received: from mint.Berkeley.EDU by sprite.Berkeley.EDU (5.59/1.29)
  12092.         id AA991307; Fri, 15 Dec 89 17:18:22 PST
  12093.         ....
  12094.     Received: by rosemary.Berkeley.EDU (4.0/SMI-4.0)
  12095.         id AA05426; Fri, 15 Dec 89 17:16:37 PST
  12096.  
  12097. I haven't seen this before, and other mail appears to work okay.
  12098.  
  12099.  
  12100.  
  12101. 794.
  12102. Date: Sun, 17 Dec 89 11:54:02 PST
  12103. From: mendel (Mendel Rosenblum)
  12104. Subject: sun4c dies horrible death
  12105.  
  12106. I tried to kill a process on the debug list and jaywalk went into an infinite
  12107. loop scrambling the video.   I had to power cycle to get control back.
  12108.  
  12109.  
  12110.  
  12111.  
  12112. 795.
  12113. Date: Sun, 17 Dec 89 15:24:14 PST
  12114. From: mgbaker (Mary Gray Baker)
  12115. Subject: Known sparcstation bugs with processes on debug list
  12116.  
  12117. There are 2 known bugs about continuing processes on the debug list on
  12118. sparcstations.  They are related.  In the installed new kernel, the call
  12119. to Proc_SuspendProc is in the underflow handler for processes that have
  12120. bad stack pointers.  I've already mailed bugs about this problem.  Continuing
  12121. these processes is a very bad idea since the underflow handler can't deal
  12122. any further with a process with a bad stack pointer.  This was an attempt
  12123. to make debugging of these processes possible, but obviously I must do this
  12124. a little differently.  The other related problem is that migrated processes
  12125. aren't supposed to go onto the debug list, and I didn't know this before.
  12126. If the Proc_SuspendProc gets called in the underflow handler on a migrated
  12127. process, the machine will die in List_Remove.
  12128.  
  12129.  
  12130.  
  12131.  
  12132. 796.
  12133. Date: Mon, 18 Dec 89 00:42:31 PST
  12134. From: shirriff (Ken Shirriff)
  12135. Subject: eqn on sun3 is confused
  12136.  
  12137. Eqn puts 3 blank lines after each line containing an equation, when
  12138. used on a sun3.  It works fine on the ds3100.
  12139.  
  12140.  
  12141.  
  12142. 797.
  12143. Date: Mon, 18 Dec 89 12:32:54 PST
  12144. From: pmchen (Peter M. Chen)
  12145. Subject: diff and cmp
  12146.  
  12147. decstation (subversion) : diff shows them equivalent
  12148.         cmp shows them equivalent
  12149. sun4 (anise): diff shows them DIFFERENT
  12150.         cmp shows them equivalent
  12151.  
  12152. The files are /scratch/pmchen/db2.11.22.{a,b}.  Watch out, they're big (80 MB).
  12153.  
  12154. I am unable to kill (even -9) my diff process.  I also can't ^C or ^Z
  12155. it.   Aaah!  The unkillable process!   :-0
  12156.  
  12157.  
  12158.  
  12159.  
  12160. 798.
  12161. Date: Mon, 18 Dec 89 14:49:35 PST
  12162. From: brent (Brent Welch)
  12163. Subject: 1.046 FsioVerifyBlockWrite broken & fixed
  12164.  
  12165. The 1.046 kernel has a botched FsioVerifyBlockWrite routine.
  12166. It tested ok on arson, and it has been running on oregano.
  12167. However, the bug shows up on Sun4s, so Allspice and Anise
  12168. had trouble running this kernel.  The bug causes write attempts
  12169. to fail because the Verify routine returns a bogus value.
  12170. I've already fixed the code and am installing a new fsio module.
  12171.  
  12172.  
  12173.  
  12174. 799.
  12175. Date: Mon, 18 Dec 89 16:17:31 PST
  12176. From: tve (Thorsten von Eicken)
  12177. Subject: sun4 cc problem
  12178.  
  12179. On the sun4, compiling for sun4, cc1.sparc goes into the debugger with
  12180. MachPageFault: Bus error in user proc ....
  12181. To duplicate: cd /cad/src/cmds/cifplot; pmake sun4.md/transforms.o
  12182. It works fine on a sun3, compiling for sun4.
  12183.  
  12184.  
  12185.  
  12186.  
  12187. 800.
  12188. Date: Tue, 19 Dec 89 15:57:19 PST
  12189. From: mgbaker (Mary Gray Baker)
  12190. Subject: Error when running out of processes
  12191.  
  12192. My machine ran out of processes, but the error it got first was that it
  12193. had run out of segments.  However, it died with an attempt to free something
  12194. it thought was already free, namely the free(argString) call in DoExec
  12195. in the execError section.  I can't see why it thought this was already free.
  12196.  
  12197.  
  12198.  
  12199.  
  12200. 801.
  12201. Date: Tue, 19 Dec 89 17:11:06 PST
  12202. From: mgbaker (Mary Gray Baker)
  12203. Subject: treason not realizing it's idle
  12204.  
  12205. When treason is idle but has X running on it, rup often fails to report it
  12206. as idle.  Although I haven't verified that this is really the cause of the
  12207. problem, it's as if there are mouse events generated even when nobody is
  12208. moving the mouse.  This has ramifications for migration, etc.
  12209.  
  12210.  
  12211.  
  12212.  
  12213. 802.
  12214. Date: Thu, 21 Dec 89 10:07:30 PST
  12215. From: Fred Douglis <douglis>
  12216. Subject: still problems with swapping errors
  12217.  
  12218. when the net was acting up this morning i got an "error 2 from
  12219. fs_read or fs_pageread" and my xwatch (xbiff) process died.  when i
  12220. tried to start a new one i hit "reserved instruction in ...".  it
  12221. seems like when there's a paging error on a code segment, the kernel
  12222. isn't smart enough to nuke the segment and try again next time.  last
  12223. time this happened i had to copy the file into a new inode to get it
  12224. to run.
  12225.  
  12226.  
  12227.  
  12228.  
  12229. 803.
  12230. Date: Thu, 21 Dec 89 12:22:18 PST
  12231. From: douglis@rosemary.Berkeley.EDU (Fred Douglis)
  12232. Subject: timer mutex deadlock after reboot
  12233.  
  12234. mint rebooted just fine, though it had some odd complaints while checking
  12235. /sprite that suggest the file system is on its way to getting trashed.
  12236. when i left, it had printed a login prompt and machines were recovering.
  12237. by the time i got back to 477, mint was in the debugger.  it printed
  12238. on its console that it was syncing its disks but didn't have an error
  12239. message until below that point when it said that timerMutex was deadlocked.
  12240. the holder PC and PCB were junk.  i poked around in the debugger but
  12241. couldn't find out where it was before that point, so i rebooted again and
  12242. am crossing my fingers.  any ideas why the PC/PCB wouldn't be right?  that's
  12243. in all kernels, not just special ones, correct?
  12244.  
  12245.  
  12246.  
  12247.  
  12248. 804.
  12249. Date: Fri, 22 Dec 89 08:32:18 PST
  12250. From: brent (Brent Welch)
  12251. Subject: sun4 (anise) X11R3 xinit dies
  12252.  
  12253. One problem with X11R3 concerns anise, the sun4/260.
  12254. xinit goes into the debugger upon startup.  There
  12255. may be some fix, but I was not able to run X11R3
  12256. on anise because of this.
  12257.  
  12258.  
  12259.  
  12260. 805.
  12261. Date: Fri, 22 Dec 89 12:42:08 PST
  12262. From: mendel (Mendel Rosenblum)
  12263. Subject: /X/cmds.sun4/Xsprite dies frequently
  12264.  
  12265. /X/cmds.sun4/Xsprite dies with much greater frequency (four times in the
  12266. last couple of hours verse once a day) when the kernel grows over
  12267. 6 megabytes.  This might suggest that there a bug in the sun4c VM operating
  12268. with low numbers of pmegs and/or free memory pages. Don't bother to try
  12269. to debug the Xsprite because you will get a watchdog reset everytime.
  12270.  
  12271.  
  12272.  
  12273.  
  12274. 806.
  12275. Date: Fri, 22 Dec 89 13:01:22 PST
  12276. From: mendel (Mendel Rosenblum)
  12277. Subject: minor bug in Mx
  12278.  
  12279. If you select a control-L and insert it into a Mx search window you get 
  12280. a small black rectangle rather than something representing a control-L. 
  12281. The search works (it finds the control-L's and not small black rectangles). 
  12282. Some control characters (such as control-G and control-F) come out as 
  12283. spaces in the search window. 
  12284.  
  12285.  
  12286.  
  12287.  
  12288.  
  12289. 807.
  12290. Date: Fri, 22 Dec 89 17:21:38 PST
  12291. From: pmchen (Peter M. Chen)
  12292. Subject: floating point on sun3
  12293.  
  12294. I've gotten some results that say (double) 49 / (double) 5030 * 1000.0 is 0.00.
  12295. This only happens on the sun3, decstations and sun4s give the correct answer.
  12296.  
  12297. I couldn't duplicate this in a simpler program, but you can see this by
  12298. running ~pmchen/tmp/mult/t1 as me from ~pmchen/tmp/mult.  The
  12299. output file is in mult.out.  Look for the line that says I/O's per second.
  12300.  
  12301. The source is ~pmchen/raid/mult/mult.c
  12302.  
  12303.  
  12304.  
  12305.  
  12306. 808.
  12307. Date: Sun, 31 Dec 89 11:03:18 PST
  12308. From: mendel (Mendel Rosenblum)
  12309. Subject: Xmfb for sparcstation bug
  12310.  
  12311. The X11R3 Xmfb seems to have trouble rendering small stipple-filled rectangles.
  12312. This is why the racing stripes of Sx toolkit and broken on jaywalk and 
  12313. the other black and white sparcstations.  I try to debug it but the
  12314. object files don't seems to match the source.  
  12315.  
  12316.  
  12317.  
  12318.  
  12319. 809.
  12320. Date: Sun, 31 Dec 89 15:27:45 PST
  12321. From: tve (Thorsten von Eicken)
  12322. Subject: cc dies on sun3 and sun4: can't compile!
  12323.  
  12324. try a pmake in /X11R3/src/cmds/xgraph, when it compiles xgraph.o
  12325. cc1 either goes into debug or the next phase complains forever that
  12326. /tmp/cc079707.s:6841:End-of-File not at end of a line
  12327.  
  12328.  
  12329.  
  12330.  
  12331. 810.
  12332. Date: Sun, 31 Dec 89 15:48:57 PST
  12333. From: mgbaker (Mary Gray Baker)
  12334. Subject: X11R3 color database still in trouble
  12335.  
  12336. Now my window with black background and red foreground comes out completely
  12337. red rather than completely black.  I agree this is more colorful, but it's
  12338. equally impossible to use.  Also, my light blue background has turned itself
  12339. to purple.
  12340.  
  12341.  
  12342.  
  12343.  
  12344. 811.
  12345. Date: Sun, 31 Dec 89 23:44:17 PST
  12346. From: tve (Thorsten von Eicken)
  12347. Subject: msgs doesn't seem to get updated
  12348.  
  12349. At least there are more recent messages on ernie.
  12350.  
  12351.  
  12352.  
  12353.